江苏开放大学强化学习060733形考作业1.docx

下载文档

0
0
约3.28千字
约 6页
2024-08-03 发布于福建
举报
版权申诉
保障服务

江苏开放大学强化学习060733形考作业1.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

试题列表

单选题

题型：单选题客观题分值5分难度：简单得分：5

关于多臂??机问题的描述，下列说法错误的是（）

每个摇臂的中奖概率是未知的

?标是在有限的摇动次数中获得更多的硬币奖励

每个摇臂的中奖概率不完全相同

多臂??机问题可以转化为?个?退化的MDP问题

正确答案：D

题型：单选题客观题分值5分难度：简单得分：5

对于强化学习中模型的理解是（）。

模型决定了下一步要采取的动作。

它由状态、动作、状态转移概率和奖励函数几个部分组成。

马尔可夫决策过程中可以有模型，也可以没有模型。

模型中的奖励函数是指我们在当前状态采取了某个动作，可以得到多大的奖励。

正确答案：D

题型：单选题客观题分值5分难度：简单得分：5

下列关于epsilon-greedy策略的说法正确的是（）

每次游戏中产?服从0到1之间正态分布的随机数

每次游戏中产?服从0到1之间均匀分布的随机数

每次游戏中产?服从0到10之间正态分布的随机数

每次游戏中产?服从0到10之间均匀分布的随机数

正确答案：B

题型：单选题客观题分值5分难度：简单得分：5

强化学习智能体的组成成分（）。

都包含策略、价值函数和模型

只有策略和模型

只有策略和价值函数

可能有策略、价值函数、模型中的一个或多个成分

正确答案：D

题型：单选题客观题分值5分难度：中等得分：5

在三连棋游戏中，位于状态s0，采?策略，然后有1/3的概率会达到获胜的状态，有2/3的概

率到达中间状态s1；之后这个中间状态在该策略下会有3/4的概率到达获胜的状态，1/4的概率到达平局

的状态，若获胜的价值为1，平局价值为0，则该策略下状态s0的价值image.png为（）

1/2

2/3

1/3

5/6

正确答案：D

题型：单选题客观题分值5分难度：简单得分：5

强化学习中的策略的含义是（）

策略把输入的状态变为价值。

策略只有随机的形式。

我们不能把策略看做是一个函数。

策略是智能体的动作模型，它决定了智能体的动作。

正确答案：D

题型：单选题客观题分值5分难度：简单得分：5

关于探索和利?，下列说法正确的是（）

探索是指我们直接采取已知的可以带来很好奖励的动作。

利用就是通过试错来理解采取的动作到底可不可以带来好的奖励。

探索即我们去探索环境，通过尝试不同的动作来得到最佳的策略（带来最大奖励的策略）。

利用即我们去尝试新的动作，找到可以带来很大奖励的动作并采用它。

正确答案：C

题型：单选题客观题分值5分难度：简单得分：5

下列选项关于?尔可夫过程与MDP的对?说法错误的是（）

?尔可夫过程体现宏观性质，MDP体现主观操作

?程中很多实际问题适合被定义为?尔可夫过程??MDP

?尔可夫过程反映的是客观规律，MDP反映的是具体问题

MDP关注的是如何对?个具体的问题采取措施，使得获得的效果最好

正确答案：B

题型：单选题客观题分值5分难度：一般得分：5

下列关于动态规划思想的说法中，不正确的?项是（）

动态规划将问题在时间维度上进?拆分，称为时间差分，即利?下?时刻状态的价值计算当前时刻

状态的价值，直到计算出所有状态的价值

动态规划要将?的问题拆分成若?个?较?的问题，分别求解这些?问题，再?这些?问题的结果

来解决?问题

三连棋游戏不同的状态虽然很多，但是状态的转移其实是有?向性的

对于三连棋游戏，可以按照从前往后的顺序依次找出各种状态的价值

正确答案：D

题型：单选题客观题分值5分难度：简单得分：5

价值函数可以这样理解（）。

有一种价值函数：Q函数。Q函数里面包含两个变量：状态和动作。

价值函数就是评估动作好坏的函数。

价值函数的值是对当下及时奖励评价。

正确答案：A

题型：单选题客观题分值5分难度：简单得分：5

以下对有模型强化学习和免模型强化学习说法正确的是（）

目前，大部分深度强化学习方法都采用了有模型强化学习。

针对是否需要对真实环境建模，强化学习可以分为有模型强化学习和免模型强化学习。

有模型强化学习不需要进行真实环境建模，用数据驱动学习。

免模型强化学习是指对环境只进行虚拟环境建模并与虚拟环境交互来学习到最优策略。

正确答案：B

题型：单选题客观题分值5分难度：简单得分：5

强化学习由两部分组成（）

状态和马尔可夫过程

动作和状态

智能体和环境

价值和动作

正确答案：C

题型：单选题客观题分值5分难度：简单得分：5

下列关于MAB的简单策略和贪?策略的说法错误的是（）

贪?策略总是选择当前期望奖励估计最?的摇臂进?操作

您可能关注的文档

文档评论（0）

开放大学作业辅导 + 关注: 实名认证

服务提供商

江苏开放大学,北京开放大学，西安开放大学，国开，云南开放大学，浙江电大，贵州电大，甘肃电大，兰大网院，四川电大，天津开放大学

咨询作者（0人已咨询）已休息

1亿VIP精品文档

更多 >

江苏开放大学强化学习060733形考作业1.docx