基于值学习与策略梯度的深度...习在核工程领域的适配性分析_谭思超.pdf

基于值学习与策略梯度的深度...习在核工程领域的适配性分析_谭思超.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

网络首发时间:2024-08-0613:58:10

网络首发地址:/urlid/11.2044.TL0853.004

第xx卷第x期原子能科学技术Vol.

xx,

No.

x

xxxx年x月Atomic

Energy

Science

and

Technology

xxxx

基于值学习与策略梯度的深度强化学习

在核工程领域的适配性分析

1,2,3,*1,2,31,2,31,2,31,2,31,2,31,2,3,*1,2,3

谭思超,刘震,刘永超,李桐,梁彪,王博,李江宽,田瑞峰

(1.

哈尔滨工程大学

船舶热能动力全国重点实验室,

黑龙江

哈尔滨150001;

2.

哈尔滨工程大学

黑龙江省核动力装置性能与设备重点实验室,

黑龙江

哈尔滨150001;

3.

哈尔滨工程大学

核安全与先进核能技术工信部重点实验室,

黑龙江

哈尔滨150001)

摘要:深度强化学习能够实现端到端处理,将高维度的原始输入数据直接转化为输出动作。深度强化学习

按照间接和直接的策略优化方式,主要可分为基于值学习和基于策略梯度的两类方法。二者因原理不同,

在解决问题的能力和适用场景上存在差异。核领域中的决策问题状态参数维度高,同时决策参数与状态

参数之间存在强非线性关系,是深度强化学习的潜在应用场景。本文从强化学习的基本原理出发,归纳了

基于值学习和基于策略梯度的强化学习方法的机理差异,并结合目前研究现状对两类方法在核工程领域

可能的应用场景进行了深入分析。最后,总结了深度强化学习在后续应用中所面临的挑战及应用趋势。

关键词:人工智能;深度强化学习;值函数;策略梯度

中图分类号:TL362;TM623

文献标志码:A

文章编号:1000-6931(2024)00-0001-11

doi:10.7538/yzk.2024.youxian.0407

AdaptabilityAnalysisofValue-basedandPolicy-basedDeep

ReinforcementLearninginNuclearField

1,2,3,*1,2,31,2,31,2,31,2,3

TAN

Sichao,

LIU

Zhen,

LIU

Yo

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档