- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
网络首发时间:2024-08-0613:58:10
网络首发地址:/urlid/11.2044.TL0853.004
第xx卷第x期原子能科学技术Vol.
xx,
No.
x
xxxx年x月Atomic
Energy
Science
and
Technology
xxxx
基于值学习与策略梯度的深度强化学习
在核工程领域的适配性分析
1,2,3,*1,2,31,2,31,2,31,2,31,2,31,2,3,*1,2,3
谭思超,刘震,刘永超,李桐,梁彪,王博,李江宽,田瑞峰
(1.
哈尔滨工程大学
船舶热能动力全国重点实验室,
黑龙江
哈尔滨150001;
2.
哈尔滨工程大学
黑龙江省核动力装置性能与设备重点实验室,
黑龙江
哈尔滨150001;
3.
哈尔滨工程大学
核安全与先进核能技术工信部重点实验室,
黑龙江
哈尔滨150001)
摘要:深度强化学习能够实现端到端处理,将高维度的原始输入数据直接转化为输出动作。深度强化学习
按照间接和直接的策略优化方式,主要可分为基于值学习和基于策略梯度的两类方法。二者因原理不同,
在解决问题的能力和适用场景上存在差异。核领域中的决策问题状态参数维度高,同时决策参数与状态
参数之间存在强非线性关系,是深度强化学习的潜在应用场景。本文从强化学习的基本原理出发,归纳了
基于值学习和基于策略梯度的强化学习方法的机理差异,并结合目前研究现状对两类方法在核工程领域
可能的应用场景进行了深入分析。最后,总结了深度强化学习在后续应用中所面临的挑战及应用趋势。
关键词:人工智能;深度强化学习;值函数;策略梯度
中图分类号:TL362;TM623
文献标志码:A
文章编号:1000-6931(2024)00-0001-11
doi:10.7538/yzk.2024.youxian.0407
AdaptabilityAnalysisofValue-basedandPolicy-basedDeep
ReinforcementLearninginNuclearField
1,2,3,*1,2,31,2,31,2,31,2,3
TAN
Sichao,
LIU
Zhen,
LIU
Yo
您可能关注的文档
- 智能时代职业院校教师专业发展:内涵、困境及行动路径_苏久红.pdf
- 论数字金融市场生成式人工智能应用的试验型规制_郑丁灏.pdf
- 智能经济及其相关论争的辨析_程恩富.pdf
- 人工智能赋能语文教育的创新发展研究_李思绮.pdf
- 人工智能赋能高校教师增值评价:内涵、困顿与突破_邱思婕.pdf
- 以“绝影”之名,加速智能汽车驶入AGI时代_马琨.pdf
- “人工智能+”赋能新质生产...发展——内在机理与路径探索_李猛.pdf
- 数字治理视角下采矿自动化探...采矿手册第六卷矿山智能化》_唐韵.pdf
- 探针电喷雾离子化质谱法结合...腺癌术中良恶性快速诊断模型_赵玲玉.pdf
- 人工智能赋能老年智慧教育创新发展研究_孙金花.pdf
文档评论(0)