《强化学习理论与应用》蒙特卡洛法.pptVIP

《强化学习理论与应用》蒙特卡洛法.ppt

  1. 1、本文档共75页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

目录;动态规划法:

基于模型的MDP问题求解方法;

当环境模型已知,动态规划法无需环境采样,只需通过迭代计算,就可以得到问题的最优策略;

无模型强化学习状态转移概率是未知的,无法利用动态规划方法求解值函数。

通过值函数的原始定义来求解无模型强化学习问题:

;经验方法

通过大量采样获取数据来进行学习

MC方法

MC正是基于经验方法,在环境模型未知的情况下,采用时间步有限的、完整的情节,根据经验进行学习,并通过平均采样回报来解决强化学习问题。;5.1.1MC的核心要素

;情节:

一段经验可以分为多个情节,每一情节都是一个完整的,即必有终止状态,形如:

经常与情节混淆的是轨迹,轨迹可以不存在终止状态,形如:

;完整回报与目标值:

因为只有到达终止状态才能计算回报,所以将情节的回报称为完整回报,也称为MC的目标值。

;5.1.2MC的特点

;5.1蒙特卡洛法的基本概念(6);5.1蒙特卡洛法的基本概念(7);5.1蒙特卡洛法的基本概念(8);5.1蒙特卡洛法的基本概念(9);目录;根据状态值函数的初始定义,MC预测算法以情节中初始状态的回报期望作为其值函数的估计值,对策略进行评估。在求解状态的值函数时,先利用策略产生个情节,然后计算每个情节中状态的折扣回报:

这里,表示在第个情节中,从时刻到终点时刻的回报。该回报是基于某一策略下的状态值函数的无偏估计(由于是真实获得的,所以属于无偏估计,但是存在高方差)。

;在MC中,每个回报都是对独立同分布的估计,通过对这些折扣回报求期望(均值)来评估策略:

在一组采样(一个情节)中状态可能多次出现,以更新图的方式表示,如下图所示。对同一情节中重复出现的状态,有如下两种处理方法:

;首次访问(first-visit):在对状态的回报进行估计时,只对每个情节中第1次访问到状态的回报值作以统计:

每次访问(every-visit):在对状态的回报进行估??时,对所有访问到状态的回报值都作以统计:

;其中,表示第个情节,表示第次访问到状态;表示状态被访问过的总次数。根据大数定理,当MC采集的样本足够多时,计算出来的状态值函数估计值就会逼近真实状态值函数。

;5.2蒙特卡洛法预测(5);5.2蒙特卡洛法预测(6);5.2蒙特卡洛法预测(7);5.2蒙特卡洛法预测(8);5.2蒙特卡洛法预测(9);5.2蒙特卡洛法预测(10);目录;;;;目录;5.4蒙特卡洛控制(1);5.4蒙特卡洛控制(2);5.4蒙特卡洛控制(3);5.4蒙特卡洛控制(4);5.4蒙特卡洛控制(5);5.4蒙特卡洛控制(6);5.4蒙特卡洛控制(7);5.4蒙特卡洛控制(8);5.4蒙特卡洛控制(9);5.4蒙特卡洛控制(10);5.4蒙特卡洛控制(11);5.4蒙特卡洛控制(12);5.4蒙特卡洛控制(13);5.4蒙特卡洛控制(14);5.4蒙特卡洛控制(15);5.4蒙特卡洛控制(15);5.4蒙特卡洛控制(16);5.4蒙特卡洛控制(17);5.4蒙特卡洛控制(18);5.4蒙特卡洛控制(19);5.4蒙特卡洛控制(20);5.4蒙特卡洛控制(21);5.4蒙特卡洛控制(22);5.4蒙特卡洛控制(23);5.4蒙特卡洛控制(24);5.4蒙特卡洛控制(25);5.4蒙特卡洛控制(26);5.4蒙特卡洛控制(27);5.4蒙特卡洛控制(28);5.4蒙特卡洛控制(29);5.4蒙特卡洛控制(30);5.4蒙特卡洛控制(31);5.4蒙特卡洛控制(32);5.4蒙特卡洛控制(33);5.4蒙特卡洛控制(34);5.4蒙特卡洛控制(35);5.4蒙特卡洛控制(36);5.4蒙特卡洛控制(37);5.4蒙特卡洛控制(38);5.4蒙特卡洛控制(38);5.

文档评论(0)

siba448858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档