- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
·176·计算机测量与控制.2023.31(6)设计与应用
ComputerMeasurementControl
DOI:10.16526/ki.11-4762/tp.2023.06.027中图分类号:TP183;TN791文献标识码:A
文章编号:1671-4598(2023)06-0176-07
神经网络训练处理器的浮点运算优化架构
张立博1,李昌伟1,齐伟1,王刚²,戚鲁凤²
(1.中国绿发投资集团有限公司,北京100010;2.山东鲁软数字科技有限公司,济南250001)
摘要:针对神经网络训练加速器中存在权重梯度计算效率低的问题,设计了一种高性能卷积神经网络(CNN)训练处理器的
浮点运算优化架构;在分析CNN训练架构基本原理的基础上,提出了包括32bit、24bit、16bit和混合精度的训练优化架构,从
而找到适用于低能耗且更小尺寸边缘设备的最佳浮点格式;通过现场可编程门阵列(FPGA)验证了加速器引擎可用于MNIST
手写数字数据集的推理和训练,利用24bit自定义浮点格式与16bit脑浮点格式相结合构成混合卷积24bit浮点格式的准确率可
达到93%以上;运用台积电55nm芯片实现优化混合精度加速器,训练每幅图像的能耗为8.51叫J。
关键词:卷积神经网络;浮点运算;加速器;权重梯度;处理器
FloatingPointOptimizationArchitectureofNeural
NetworkTrainingProcessor
ZHANGLibo,LIChangwei,QIWei,WANGGang,QILufeng?
(1.ChinaGreenDevelopmentInvestmentGroupCo.,Ltd.,Beijing100010,China;
2.ShandongLuruanDigitalTechnologyCo.,Ltd.,Jinan250001,China)
Abstract:Aimingatthelowefficiencyofweightgradientcalculationinaneuralnetworktrainingaccelerator,afloating-pointop-
erationoptimizationarchitecturebasedonthehighperformanceconvolutionalneuralnetwork(CNN)trainingprocessorisdesigned.
OnthebasicprincipleofCNNtrainingarchitecture,atrainingoptimizationarchitecturewith32bit,24bit,16bitandmixedaccuracy
isproposed,thebestfloating-pointformatforedgedeviceswithlowenergyconsumptionandsmallersizeisfound.Byfieldprogram-
mablegatearray(FPGA),theacceleratorengineisusedtoverifythereasoningandtrainingofMNISThandwrittendigitaldatasets.
Thedatawith24bitcustomfloating-pointformatand16bitbrainfloating-pointformatareusedtoconstuctthatofhybridconvolution
文档评论(0)