- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
文章主要针对AI目前在各个比较热门领域的应用现状展开了梳理与分析,包含:计算机
视觉、语音交互、自然语言处理和典型AI场景四个方面,与大家分享。
大家好,我是方舟,接下来我会出一个硬核知识系列,共三篇《AI产品经理必懂的硬知识
》,从应用领域、常见概念与算法、自我进阶三个方面去阐述,这个系列算是榨干了我多
个笔记。第一篇咱们就来谈谈目前各个主流应用领域的现状吧。有读者反应我的文章过于
“干货”,实在太长,要分好几次看完,列个提纲吧。
一、计算机视觉(CV)二、语音交互(1)语音识别(ASR)(2)语音合成(TTS)
三、自然语言处理(NLP)四、典型AI场景(1)智能机器人(2)无人驾驶(3)人
脸识别(非手机端)(4)视觉设计(手机端)(5)自动文字编辑
一、计算机视觉(CV)
计算机视觉是一门研究如何使机器“看”的科学,就是指用摄影机和计算机代替人眼对目
标进行识别、跟踪和测量等机器视觉的应用,是使用计算机及相关设备对生物视觉的一种
模拟,对采集的图片或视频进行处理从而获得相应场景的三维信息,让计算机具有对周围
世界的空间物体进行传感、抽象、判断的能力。
计算机视觉在现实场景中应用价值主要体现在可以利用计算机对图像和视频的识别能力,
替代部分人力工作,节省人力成本并提升工作效率。传统的计算机视觉基本遵循图像预处
理、提取特征、建模、输出的流程,不过利用深度学习,很多问题可以直接采用端到端,
从输入到输出一气呵成。
1.研究内容
实际应用中采集到的图像的质量通常都没有实验室数据那么理想,光照条件不理想,采集
图像模糊等都是实际应用中常见的问题。所以首先需要校正成像过程中,系统引进的光度
学和几何学的畸变,抑制和去除成像过程中引进的噪声,这些统称为图像的恢复。对输
入的原始图像进行预处理,这一过程利用了大量的图像处理技术和算法,如:图像滤波、
图像增强、边缘检测等,以便从图像中抽取诸如角点、边缘、线条、边界以及色彩等关于
场景的基本特征;这一过程还包含了各种图像变换(如:校正)、图像纹理检测、图像运
动检测等。根据抽取的特征信息把反映三维客体的各个图象基元,如:轮廓、线条、纹
理、边缘、边界、物体的各个面等从图象中分离出来,并且建立起各个基元之间的拓朴学
上的和几何学上的关系——称之基元的分割和关系的确定。计算机根据事先存贮在数据
库中的预知识模型,识别出各个基元或某些基元组合所代表的客观世界中的某些实体——
称之为模型匹配,以及根据图象中各基元之间的关系,在预知识的指导下得出图象所代表
的实际景物的含义,得出图象的解释或描述。
2.瓶颈
目前在实际应用中采集到的数据还是不够理想,光照条件、物体表面光泽、摄像机和空间
位置变化都会影响数据质量,虽然可以利用算法弥补,但是很多情况下信息缺失无法利用
算法来解决。在一幅或多幅平面图像中提取深度信息或表面倾斜信息并不是件容易的事
,尤其是在灰度失真、几何失真还有干扰的情况下求取多幅图像之间的对应特征更是一个
难点。除了得到物体的三维信息外,在现实世界里,物体间相互遮挡,自身各部位间的遮
挡使得图像分拆更加复杂。预知识设置的不同也使得同样的图像也会产生不同的识别结
果,预知识在视觉系统中起着相当重要的作用。在预知识库中存放着各种实际可能遇到的
物体的知识模型,和实际景物中各种物体之间的约束关系。计算机的作用是根据被分析的
图象中的各基元及其关系,利用预知识作为指导,通过匹配、搜索和推理等手段,最终得
到对图象的描述。在整个过程中预知识时刻提供处理的样板和证据,每一步的处理结果随
时同预知识进行对比,所以预知识设置会对图像识别结果产生极大影响。
由于笔者本人是专门做AICV这个方向产品的,因此未来的文章中关于CV的知识以及
CV实际项目都会涉及很多。在之后的文章里针对视觉识别,特别是视觉识别里面的明星
应用人脸识别,我会很深入的去探讨。其中人脸识别中所涉及的很多AI产品实现细节的
拆解,从成像、预处理、算力估算到检测、多目标、跟踪、分割、识别、算法精度测试模
块,如果弄懂弄透,再将这一块体系延伸到车辆、动物等其他视觉类项目,基本原理都是
类似的,可谓一通百通。
二、语音交互
语音交互也是非常热门的方向之一,其实语音交互整个流程里包含语音识别、自然语言处
理和语音合成。自然语言处理很多时候是作为单独的一个领域来研究的,所以这里暂且不
展开,本文也将单
您可能关注的文档
- [AI工具宝典]AI产品经理 VS 数据产品经理,看这5点区别与联系.pdf
- [AI工具宝典]AI产品经理,如何规划AI产品的MVP?.pdf
- [AI工具宝典]AI产品经理必修:揭开算法的面纱(隐含马尔可夫).pdf
- [AI工具宝典]AI产品经理必修——揭开算法的面纱(EM算法).pdf
- [AI工具宝典]AI产品经理必修——揭开算法的面纱(贪心算法).pdf
- [AI工具宝典]AI产品经理必修——揭开算法的面纱(余弦定理).pdf
- [AI工具宝典]AI产品经理必知的两类ChatBot详解.pdf
- [AI工具宝典]AI产品经理的必修课:系统化思维.pdf
- [AI工具宝典]AI产品经理的关键性产品思维.pdf
- [AI工具宝典]AI产品经理的价值和未来|学习俞军老师分享有感.pdf
- 2024精简护肤洁面趋势报告-TMIC-30正式版.doc
- 2024捕捉华夏民族珍味-咸味主食与咸味零食创新机遇报告-25正式版.doc
- 2024年秋季部编版小学道德与法治二年级上册全册课件PPT最新.pptx
- 部编版第十一册第四单元拓展提高教学课件.ppt
- 2024年秋季新西师大版一年级上册数学全册教学课件(新版教材).pptx
- 2024年秋新人教版一年级上册数学全册教学课件(新版教材).pptx
- 2024年秋季新人教版数学一年级上册全册教学课件(新版教材).pptx
- 2024年秋季新人教版数学一年级上册全册课件(新版教材).pptx
- 2024年秋季新人教版一年级上册数学全册教学课件(新版教材).pptx
- 2024年秋季新人教版一年级上册数学全册课件(新版教材).pptx
最近下载
- 《2024年甘肃省职业院校技能大赛中职学生组医药卫生类护理技能赛项样卷3》.pdf
- 双减背景下新课标单元整体作业分层设计案例 人教版小学数学四年级下册第五单元 三角形.docx
- 标准泳池砖的国家标准规格.doc
- 湘科版科学(2017)六年级上册全册全单元教学设计.doc
- 芜湖市湾沚区殡仪馆招聘考试真题及答案2024.docx
- 租房租赁合同电子版(8篇).pdf VIP
- 陕西师范大学-《比较教育学》(专升本)考评作业-含答案.pdf VIP
- 医院进修结业证书(模板).docx
- 专题03 规律探索及新定义问题(4大考点)2022-2024年中考数学真题分类汇编.docx VIP
- GB_T50649-2011《水利水电工程节能设计规范》 局部修订2024版.pdf VIP
文档评论(0)