人工智能基础 课件 7.1~7.11 爬行机器人.pptx

人工智能基础 课件 7.1~7.11 爬行机器人.pptx

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

爬行机器人

波士顿动力公司的大狗(BigDog)。它能行走、奔跑、攀爬以及负载重物。大狗的四条腿和动物一样拥有关节,可吸收冲击能量,每迈出一步就回收部分能量,以此带动下一步。

知识目标了解强化学习的含义了解强化学习的含义理了解如何在不确定的世界做决策了解Q学习的基本原理

知识准备—7.1—

强化学习就像是小孩子学走路,没有哪个小孩子学走路是拿着“走路宝典”学会的,每个小孩子都是靠不断地尝试、摔跤、站起来继续尝试这样不断的“迭代”学会的。著名的波士顿动力大狗也是靠多次摔跤才学会各种炫酷的动作的。7.1.1强化学习

7.1.2充满不确定性的世界在现实世界中,我们的某一个动作不一定会带来特定结果,这个结果往往是不确定的,我们真实的世界是一个不确定的世界。如图所示,机器人想向前走,但是最终会到达哪里,并不确定。

世界中充满了危险和诱惑。如果是一个确定的世界,那机器人的选择将会很简单,直接走向钻石成为人生赢家。但是世界不是这么简单,是不确定的。7.1.3不确定的世界如何做决策如果没有不确定性,机器人要绕路吗?要绕多远?如果有一点不确定性,机器人要绕路吗?要绕多远?如果有很大不确定性,机器人要绕路吗?要绕多远?

生存回报—7.2—

智能体走任意一步,不管怎么走,走到哪里,都会接收这个回报,它可能为正,也可能为负。这就是小孩子每走一步都会耗费一定的体力。不过如果我们忽略小孩子体力的问题,将小孩子学走路的生存回报变为每走一步就给某个奖励,小孩子可能就会尝试一直走从而能够一直得到这种奖励。

试一试

深入分析—7.3—

?探索与利用?

学习率告诉我们当前体验相对历史经验有多大成分会影响我们的判断。如何设置学习率,也是一个重要的技术。具体的设置,在每个任务中都会不同,一般来说开始的时候设置较大的学习率进行快速学习,随后降低学习率慢慢学习。学习率

本章小结—7.4—

本章介绍了强化学习的基础。真实的世界有着各种不确定性,强化学习帮助我们解决这类问题。通过对回报和Q值的感性认识,体验Q学习。接着介绍了探索与利用的作用、学习率的重要性,并亲自动手训练一个爬行机器人。

课后练习—7.5—

(1)除了小孩子学走路,生活中有没有什么类似强化学习的例子?(2)生活中有没有什么体现了合理设置回报的例子?(3)你认为如何设置参数,爬行机器人会更快地到达终点?

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档