工业互联网边缘计算 课件 任务2.7 MEC服务器上的模型部署和推理.pptx

工业互联网边缘计算 课件 任务2.7 MEC服务器上的模型部署和推理.pptx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

——工业互联网边缘计算——模块2部署MEC服务器和端侧感知设备

目录CONTENTSMEC服务器和端侧感知设备选型任务2.1工业智慧园区规划任务2.2边缘计算设备的硬件选型任务2.3MEC服务器及端侧设备的硬件部署任务2.4边缘计算设备的软件部署任务2.5端侧设备的数据采集和预处理任务2.6MEC服务器上的模型部署和推理任务2.7

任务2.7MEC服务器上大的模型部署和推理

导入边缘计算智能是指在硬件设备上在本地处理的人工智能算法,可以在没有网络连接的情况下处理数据,无需流式传输或在云端数据存储的情况下进行数据分析与处理等操作。例如,工厂的机器人和自动驾驶汽车都需要以最小的延迟高速处理数据。边缘计算能够在云端利用深度学习生成数据模型,而在设备本身(边缘)执行模型的推断和预测。

2.7.1模型部署和推理概述在深度学习模型的部署(即模型推理)阶段,为了在算力和能耗均受限的边缘或终端设备实现低延迟和高效能的模型推理,现有的优化技术主要可以分为模型压缩、模型分割、模型提前退出、模型选择、边缘缓存、输入过滤、面向应用优化等7种。1.模型压缩:通过压缩深度学习模型,可以使模型从“大”变“小”,从而降低模型复杂度和资源需求,更好地在资源受限的边缘设备上实现低延迟和低能耗的模型推理。模型压缩的常用方法包括权重剪枝(weightpruning)和数据量化(quantization)。其中,权重剪枝的基本思想为:深度学习模型中含有大量的权重参数,然而不同的权重参数对模型表示能力(即模型精确度)的贡献具有差异。因此,通过删除重要程度低(即对模型表示能力贡献少)的权重参数,可以达到以牺牲少量模型精度为前提,显著降低模型资源消耗的目的。数据量化是另一项用于模型压缩的主流技术,其基本思想为通过低精度的数值来表示权重参数,例如8比特、4比特甚至1比特,从而降低模型的复杂度和资源消耗。值得注意的是,数据量化同样会降低模型精度。2.模型分割:深度学习模型通常由多层神经元网络组成,不同网络层的资源消耗和中间数据输出量均不同。基于这一事实,深度学习模型分割技术将模型分割成若干部分,并以较小的传输代价,将其中计算密集的部分卸载到多个边缘服务器或邻近的移动设备。实现边缘计算模型推理,从而获得更好的实时性能图。为了实现性能最优化,模型分割点的选择通常需要考虑不同节点的可用计算和网络带宽资源。

2.7.1模型部署和推理概述3.模型提前退出:为了加速深度模型推理,模型提前退出技术通过处理较为靠前的网络层输出结果提前结束模型推理,并获得最终输出结果,节省运行时间。值得注意的是,模型提前退出技术虽然能够有效降低资源消耗量,但同样会损害模型精度,因此在选择最佳模型退出点时,需要权衡优化性能与模型精度。4.模型选择:实现同一深度学习功能的模型通常有多个。以视觉应用中常用的物体检测功能为例,常用的模型有Yolo、VGG和AlexNer等。然而,针对同一输入,不同模型的资源消耗和识别精度不同。因此,我们可以针对输入动态自适应地选择最优模型,从而协同优化资源消耗和模型精度。5.边缘缓存:在很多AI应用中,部分查询任务具有时间重复性特征。例如,在公司、学校或者园区的人脸识别应用中,存在大量频繁重复的人脸输入。对于这些重复性输入,可以将它们的识别结果缓存在边缘节点,从而避免重复性计算,降低时延与资源消耗。考虑到边缘缓存容量有限,如何动态调整缓存的结果是需要解决的关键问题。6.输入过滤:对于很多AI应用,大量的输入是对查询结果无意义的非目标输入。例如在安防监控中,摄像头中的大量输入为非目标的视频背景。通过提前识别并去除这些非目标输入,可以有效避免深度学习模型推理的冗余计算,从而显著降低模型推理的资源消耗。7.面向应用优化:面向应用优化主要考虑针对应用的某些特定属性进行优化。例如,对于图片识别应用而言,图片分辨率对深度学习模型的资源消耗有非常大的影响。我们可以通过降低输入图片辨率来降低资源消耗。进一步,针对视频分析应用我们可以通过同时调整视频输入的分辨率和帧速率来降低视频分析过程中的资源消耗。

2.7.1模型部署和推理概述在边缘智能系统设计中,往往可以综合以上多种手段来满足应用需求。例如,我们联合模型分割和模型提前退出这两种技术手段,提出了基于端边协同的深度学习推理加速优化框架Edgent。Edgent的优化逻辑分为三个阶段:离线训练阶段、在线优化阶段以及协同推断阶段。在离线训练阶段,我们训练好满足任务需求的多分支网络(含有模型提前退出点),同时为分支网络中的不同神经网络层训练回归模型,以此估算神经网络层在边缘服务器与终端设备上的运行时延;在线优化阶段,回归模型将被用于寻找符合任务时延需求的退出点以及模型分割点:在协同推断阶段边缘服务器和终端设备将按照得出的方案进行分布式

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档