华为云AI视频技术白皮书.docx

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

引言/01

AI与视频的碰撞/05

发展趋势 05

典型场景 07

AI视频介绍/09

参考架构 09

行业视频管理服务(IVM) 11

视频智能分析服务(VIAS) 13

盘古CV大模型 15

盘古视频解译大模型 21

华为云AI视频

技术白皮书

AI视频应用案例/23

4.1华为门店 23

4.2物流 25

4.3铁路 26

4.4矿山 28

4.5电力 30

展望未来,从感知到生成/31

01|引言

01|引言

引言

用摄像机拍摄,记录并播放视频可以回溯到19世纪,大家公认的第一部电影是法国影片《工厂的大门》,1895年由路易斯?卢米埃尔摄影。表现当时法国里昂卢米埃尔工厂放工时的情景,片长仅一分多钟。从这以后,摄影技术持续发展,从模拟技术到数字技术,从电影摄像机到家用摄像机,直到电脑,手机等便携终端内置摄像头,摄像已经成为当今社会人们记录信息并传播交流的最重要工具和手段,也是大众百姓所需要和掌握的一项基本生活技能。

摄像技术应用也从电影,广播电视发展到生活中的方方面面,包括城市治理、安全防护、工业质检等等。每个城市,每个企业都有大量的摄像机,不断在记录发生的一切。海量的视频数据,在方便大众的生活的同时,也带来了很多管理上的困扰。数据如何有效存储,如何能够感知并记录关键事件,如何能够将屏幕面前的工作人员解放出来或者减轻他们工作的强度,已经成为视频使用者最关心的问题。与此同时,AI技术虽然起步较晚,但随着其快速的发展,已经在诸多方面与视频技术产生了深度的融合。

引言

引言|01

1950年,艾伦?图灵(AlanTuring)在论文《计算机器与智能(ComputingMachineryandIntelligence)》中提出了著名的“图灵测试”,给出了判定机器是否有“智能”的试验方法。1956年夏,麦卡锡、明斯基等科学家在美国达特茅斯学院开会研讨“如何用机器模拟人的智能”,首次提出“人工智能(Arti?cialIntelligence,简称AI)”这一概念,标志着人工智能学科的诞生。

人工智能从诞生之初,就希望让机器理解这个世界,将人类从繁琐,重复性的事务中脱离出来。从符号主义、专家系统、神经网络、深度学习、强化学习到预训练大模型,一个又一个技术的突破,让人类看到了通用人工智能的希望。自然而然,用人工智能识别视频数据,甚至生成视频数据成为了技术路线的必然选择。华为公司在视频技术和人工智能技术上都有深厚的积累和丰富的实践,华为云AI视频产品正是将AI和视频技术相结合的优秀典范。此篇《华为云AI视频白皮书》,是我们团队研究和实践经验的总结,希望能够更好地促进产业的发展,让摄像机“看得懂、会说话”。

02|

02|AI与视频的碰撞

AI与视频的碰撞

没有孤立的技术,融合才能发展。视频技术和AI技术虽然起步时间不同,但在发展中却交相辉映,在最需要彼此的时候相遇。如下图所示,人工智能和视频编解码,都经历了漫长的摸索期,并先后于21世纪取得突破式发展。深度学习将人工智能带入千行百业的生产流程,H.264编码技术将视频业务带入移动互联网,成为每个消费者日常的必需品。两条平行发展的技术踩着同样的步点,在视频数据爆发增长,预训练大模型横空出世的时代相遇。AI和视频的结合是趋势和必然,给所有人,所有行业无限的想象空间和发展潜力。两个超万亿产值的行业相乘,将带来无法估量的产业价值。

人工智能起步阶段

专家系统阶段

机器学习

深度学习阶段

大模型通用人工智能

起源

达特茅斯会议的人工智能研讨,标志着AI诞生

第一次高潮-黄金发展期符号主义和联接主义接连出现,机器学习理论和计算机

视觉学科诞生

第二次高潮-快速发展期“专家系统”出现,为企业一年节省数千万美金。专家系统所依

赖的知识库系统和知识工程成为

主要研究方向,政府开始重视人工智能项目

1980s

第三次兴起

2000年以后,算力+算法+数据

的突破带来深度学习的兴起

2007年,李飞飞构建开源ImageNet,世界最大的图像识别数据集(2万多类别)

2006

Transformer出现Google提出Transformer替换

CNN/RNN

2017

ChatGPT

OpenAI发布

ChatGPT

2023

1956

1960s

1974–1980

使用时间压缩的帧间预测编码第一次寒冬

使用时间压缩的帧间预测编码

1993

第二次寒冬

AI

AI与视频的碰撞|02

算法只能解决狭窄领域的问题,

算法只能解决狭窄领域的问题,

算力不足以支撑发展

专家系统通用性差成本

您可能关注的文档

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档