人工神经网络加速方法综述与研究.docxVIP

人工神经网络加速方法综述与研究.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

人工神经网络加速方法综述与研究

陶常勇;高彦钊;王元磊;张兴明

【期刊名称】《《天津科技》》

【年(卷),期】2019(046)0z1

【总页数】3页(P28-30)

【关键词】神经网络;众核架构;近数据计算;片上网络

【作者】陶常勇;高彦钊;王元磊;张兴明

【作者单位】天津市滨海新区信息技术创新中心天津300450;国家数字交换系统工程技术研究中心河南郑州450000;解放军信息工程大学河南郑州450000

【正文语种】中文

【中图分类】TN791

0引言

从某种意义上说,人类之所以是地球上智慧最高的生物,与人脑是一个高度复杂的非线性的并行信息处理系统有直接关系。早在1943年,McCulloc等[1]就已经提出了人工神经网络的神经元模型。到1974年,Werbos[2]发明了著名的反向传播算法,大大推动了神经网络的发展。近些年,人工智能技术得到了突飞猛进的发展,在语音识别、图像分类、自然语言处理、系统识别与控制以及医疗诊断中,人工智能已经可以像人脑一样,在复杂多变的真实环境中作出判断和决策。2015年,国务院印发的《中国制造2025》中,对信息时代尖端科技的人工智能相关技术的重视程度已经提到了国家层面。

1965年,英特尔联合创始人戈登·摩尔提出以自己名字命名的摩尔定律,意指集成电路上可容纳的元器件的数量每隔18~24个月就会增加1倍,性能也将提升1倍。而如今,随着半导体工艺达到纳米级的尺度,栅氧化层泄漏损耗在整个芯片能量消耗中占据更大的比重,而且沟道掺杂浓度提高会导致结泄漏损耗增加[3],因此,依靠工艺提升来提高计算速率已经变得不可能了。而相对立地,随着神经网络结构的迅速膨胀,人工神经网络的计算密集型和数据密集型特征正变得越来越明显,如表1所示,VGG16网络需要138M个权重参数,一次推断过程需要15.5G次乘累加计算。如果想在1s内完成100张图片的识别和分类,则需要在10ms内完成上述计算,显然仅依靠工艺带动运算速率提升的方法是行不通的。

表1常见神经网络基本参数Tab.1Commonneuralnetworkbasicparameters性能指标AlexNetVGG16GoogLeNetV1ResNet50卷积层数量5135753全连接层数量3311总权重值数量61M138M7M25.5M总MAC数量724M15.5G1.43G3.9G

在此背景下,首先介绍了当前常见的人工神经网络加速芯片的技术路径和发展趋势,然后根据行业应用的特点,提出了一种面向领域的可重构计算结构,并对其工作过程进行了定性分析。

1常见加速芯片设计方法

在传统冯诺依曼计算架构中,数据从处理单元外的存储器提取,处理完成后再写回存储器,由于访问存储器的速度无法跟上运算部件的消耗数据的速度,因此很容易形成所谓的冯诺依曼内存墙问题[4]。目前主流的人工智能加速芯片基本不再单纯采用经典的冯诺依曼的计算架构,转而以GPU、FPGA、专用ASIC以及神经拟态芯片为主。下面分别介绍每种计算架构的特点。

1.1GPU

GPU主要从事大规模并行计算,以英伟达(NVIDIA)为典型代表,早期主要应用在显卡加速领域,其控制比较简单,但在GPU内部存在各类专用电路、多条流水线,因而运算速度比较快,近些年被广泛应用在深度神经网络训练和推理中。以最新的TeslaCores为例,能够提供120TFLOPS(每秒120万亿次浮点指令)的处理能力。同时NVIDIA的GPU还提供了比较完善的软件开发环境,是目前AI训练领域中应用比较广泛的加速技术。但GPU普遍存在功耗过大的问题,通常只用在云端训练加速的应用场景。

1.2FPGA

FPGA全称为现场可编程门阵列,在FPGA芯片中集成了大量的查找表、DSP核以及存储器单元,用户可以通过加载不同的FPGA配置文件来实现完全不同的硬件逻辑电路,具备很强的硬件配置灵活性,是一种bit级可重构器件。从实现效果上看,FPGA可同时拥有硬件流水线并行和数据并行处理能力,因此常用于深度学习算法的推理阶段。但是FPGA的使用有一定的门槛,要求使用者具备相当的硬件知识,并且因其重构的过程需要改变硬件电路结构,因此业务在重构过程中是需要暂停的。

1.3专用ASIC

ASIC是专用集成电路的简称,通常是为特定功能需求而定制的芯片,具有运行速度快、能耗低、可靠性高的优点,以谷歌的TPU为典型代表。但是ASIC电路开发过程长,成本高昂,并且当前人工神经网络算法还远未达到稳定状态,一旦算法发生改变,通常运算加速的电路结构也需要有一定的变化,因此专用ASIC一般无法适应未来的变化。

1.4神经拟态芯片

神经拟态芯片致力于从仿生

文档评论(0)

leet1201 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档