- 1、本文档共45页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
AI视频生成研究报告
量子位智库insights
分析师:Xuanhao2024.7
;
3.玩家格局;
视频是图像模态的进一步扩展,但由于技术复杂,对于算力、·2022年10月,Google、Meta发布Phenaki、Make-A-Video
数据等资源要求较高,成熟相对文本、图像较慢·2023年下半年,创业公司推出Runway-Gen2,Stable
·领军企业已经做出标杆,显著加速领域发展,已出现多家视VideoDiffusion、Pika等产品
频生成领域创业公司,但商业化、产品化进展较慢·2024年2月,OpenAI发布Sora引发全球关注
·目前主要是音乐生成(语音识别、克隆暂不纳入讨论),市·2024年2月,Suno.ai发布SunoV3
场不如图片生成、视频生成等领域热门,比视频更加早期·2024年6月,Stability.AI推出文生音频模型Stable
·明星创业公司较少,但有加速的发展的态势AudioOpen
·技术路线目前尚不清晰,垂直明星创业公司较少,产品大多·2020年8月,NeRF论文发表
处于早期阶段,但正在加速发展·2022年9月,谷歌发布DreamFusion
·2023年5月,OpenAI开源Shape-E模型
·2024年7月,Meta发布Meta3DGen
;
·采用传统的计算机视觉(CV)、计算机图形学
(CG)技术,但生成功能有限,主要是一些局部的垂点功能
·例如效果生成,在现有视频上添加多种效果,
如滤镜、光影、风格化、美颜特效等。也可以做局部动态化,如人物的面部表情生成、搞笑表情、爆款特效、舞蹈动作生成等
·有一定创意空间,生成部分新元素,成本低但
应用的场景有限;
·2022年12月DiffusionTransformer论文发表
·2024年2月OpenAI发布Sora,取得惊艳的生成效果,验证了Diffusion和Transformer结合的有效性
·Sora、Videopoet、W.A.L.T
·由于领军企业的示范效应,DiffusionTransformer已经成为视频生成领域的核心路线,领域内其他玩家都开始聚焦DiT并取得进展
·目前业界对于Sora的???构大多是猜想,从架构大方向上接近,但具体细节上不同模型、产品各异
·可扩展性强:基于扩散模型的视频模型,核心的构件是卷积神经网络U-Net,随着模型规模scaleup增益会放缓甚至消失。DiT
(DiffusionTransformer)将传统扩散模型的U-Net替换为Transformer,从而能够实现更强的可拓展性
·长期来看语言模型路线1可成为主要路线,可以将多种模态融合到一起(由于架构的成熟和优良的扩展性);
视频训练数据示例
·高质量数据少:最佳的训练数据是高质量的视频-文本对,即针对一段视频,有与之对应详细准确的文字描述,互联网上大部分的视频数据都难以满足需求(如数据不准确甚至是错的),此外视频数据的宽高比、分辨率、
时长各异,需要进一步处理。数据量方面,Sora的训练数据可能超过500万小时的精良视频
·公开数据质量低:公开数据集例如WebVid(1070万个
文本视频对,仅5.2万小时)、HowTo100M总时长超10万,但都是4s的短视频)、CelebV-Text(超7万个人脸-文本片段描述),数据量小且质量低
·版权数据获取难:例如电影、记录片、动漫、MV等影视作品,内容平台版权库,以及YouTube、抖音等UGC内容,成本高且有版权限制;
·英伟达目前占据全球高端GPU市场超95%的市
场份额,是事实上生成式AI全行业算力市场供给量的决定者
·英伟达的人工智能GPU在2022年出货量约270万,主要以A100为主;2023年出货量约380万块,主要以A100和H100为主;预计2024年出货量可能达到450万块,以H100和最近发布的Blackwell系列为主
·预计英伟达GPU交付量将保持20%的增速,并
在每年进行芯片架构的升级,稳步提升芯片和系统的计算能力
·目前北美最头部的科技公司都在重金押注AI
您可能关注的文档
- 2024工业机器人方向行业研究报告——物流机器人篇-海伯高斯.pptx
- 2024功效护肤突围三大机遇点.pptx
- 2024航空航天行业人才趋势报告.pptx
- 2024家清产业带趋势洞察.pptx
- 2024家清产业带趋势洞察教学应用说明.docx
- 2024开学季校园营销指南年度大报告.docx
- 2024年AI大模型场景探索及产业应用调研报告-前瞻.pptx
- 2024年Q2消费潜力白皮书—食品饮料.pptx
- 2024年宠物行业市场趋势变化报告.pptx
- 2024年咖啡品类线上消费与行业洞察.pptx
- 人教A版高中数学必修一1.1 集合的概念专练(含解析)(80) .pdf
- 人教版九年级美术上册《线材造型》教案2篇 .pdf
- 人教版初中生物七年级上册第一单元生物和生物圈知识点总结归纳.pdf
- 人教版七年级生物上册 第二单元第一章《细胞是生命活动的基本单位》测.pdf
- 人教版八年级物理上册第一章声现象教案 .pdf
- 仓储管理员练习题库(附参考答案) .pdf
- 人教版八年级上册数学第14章 整式的乘法与因式分解 单元测试卷 3套(W.pdf
- 人教A版2019必修第一册 高一数学 4 .pdf
- 人教版八年级物理下册第九章压强第4节流体压强与流速的关系.pdf
- 以感恩为主题的演讲稿800字5篇 .pdf
最近下载
- “双减”政策下初中数学分层作业设计的实践与探究 .pdf
- 《My family photo》(教学设计)-2024-2025学年冀教版(2024)初中英语七年级上册.docx VIP
- 国开电大《创业教育(创业教育专)》形考1-3及综合答案.pdf VIP
- ISO 10009-2024 质量管理——质量工具及其应用指南(中文版-雷泽佳译2024-07).docx VIP
- 人教版初中英语八年级上册 Unit 7 大单元作业设计案例 .pdf
- 美国国父——华盛顿课件.ppt
- 渔父文化内涵.doc VIP
- 2025年合肥市轨道交通集团有限公司校园招聘934人笔试备考题库及答案解析.docx
- 腰椎穿刺术教师赛教案.docx
- 产后大出血的抢救.pptx VIP
文档评论(0)