神经网络训练处理器的浮点运算优化架构.pdf

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

·176·计算机测量与控制.2023.31（6）设计与应用

ComputerMeasurementControl

DOI:10.16526/ki.11-4762/tp.2023.06.027中图分类号：TP183;TN791文献标识码：A

文章编号：1671-4598(2023)06-0176-07

神经网络训练处理器的浮点运算优化架构

张立博1，李昌伟1，齐伟1，王刚²，戚鲁凤²

（1.中国绿发投资集团有限公司，北京100010；2.山东鲁软数字科技有限公司，济南250001)

摘要：针对神经网络训练加速器中存在权重梯度计算效率低的问题，设计了一种高性能卷积神经网络（CNN）训练处理器的

浮点运算优化架构；在分析CNN训练架构基本原理的基础上，提出了包括32bit、24bit、16bit和混合精度的训练优化架构，从

而找到适用于低能耗且更小尺寸边缘设备的最佳浮点格式；通过现场可编程门阵列（FPGA）验证了加速器引擎可用于MNIST

手写数字数据集的推理和训练，利用24bit自定义浮点格式与16bit脑浮点格式相结合构成混合卷积24bit浮点格式的准确率可

达到93%以上；运用台积电55nm芯片实现优化混合精度加速器，训练每幅图像的能耗为8.51叫J。

关键词：卷积神经网络；浮点运算；加速器；权重梯度；处理器

FloatingPointOptimizationArchitectureofNeural

NetworkTrainingProcessor

ZHANGLibo,LIChangwei,QIWei,WANGGang,QILufeng?

(1.ChinaGreenDevelopmentInvestmentGroupCo.,Ltd.,Beijing100010,China;

2.ShandongLuruanDigitalTechnologyCo.,Ltd.,Jinan250001,China)

Abstract:Aimingatthelowefficiencyofweightgradientcalculationinaneuralnetworktrainingaccelerator,afloating-pointop-

erationoptimizationarchitecturebasedonthehighperformanceconvolutionalneuralnetwork(CNN)trainingprocessorisdesigned.

OnthebasicprincipleofCNNtrainingarchitecture,atrainingoptimizationarchitecturewith32bit,24bit,16bitandmixedaccuracy

isproposed,thebestfloating-pointformatforedgedeviceswithlowenergyconsumptionandsmallersizeisfound.Byfieldprogram-

mablegatearray(FPGA),theacceleratorengineisusedtoverifythereasoningandtrainingofMNISThandwrittendigitaldatasets.

Thedatawith24bitcustomfloating-pointformatand16bitbrainfloating-pointformatareusedtoconstuctthatofhybridconvolution

该用户很懒，什么也没介绍

咨询Ta 进入空间

更多 >