语音处理的基本知识.ppt

  1. 1、本文档共92页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

**昂属关系**男、女音调不同*************************************自适应预测和自适应量化,即量化器和预测器的参数能随输入信号的统计特性自适应于或接近于最佳的参数状态:①利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值;②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小**线性预测编码的基础是假设声音信号(浊音)是音管末端的蜂鸣器产生的,偶尔伴随有嘶嘶声与爆破声(齿擦音与爆破音)。尽管这看起来有些原始,但是这种模式实际上非常接近于真实语音产生过程。声带之间的声门产生不同强度(音量)与频率(音调)的声音,喉咙与嘴组成共鸣声道。嘶嘶声与爆破声通过舌头、嘴唇以及喉咙的作用产生出来。线性预测编码通过估计共振峰、剔除它们在语音信号中的作用、估计保留的蜂鸣音强度与频率来分析语音信号。剔除共振峰的过程称为逆滤波,经过这个过程剩余的信号称为残余信号(en:residue)。****采样量化编码过程中都可能引入噪声和失真。******K-L变换也常称为主成分变换(PCA)或霍特林变换,是一种基于图像统计特性的变换,它的协方差矩阵除对角线以外的元素都是零,消除了数据之间的相关性,从而在信息压缩方面起着重要作用。K-L变换即主成分分析就可以简化大维数的数据集合。它还可以用于许多图像的处理应用中,例如:压缩、分类、特征选择等。DCT变换的全称是离散余弦变换(DiscreteCosineTransform),是指将一组光强数据转换成频率数据,以便得知强度变化的情形。若对高频的数据做些修饰,再转回原来形式的数据时,显然与原始数据有些差异,但是人类的眼睛却是不容易辨认出来。**杜比数字AC-3(DolbyDigitalAC-3):美国杜比公司开发的多声道全频带声音编码系统,它提供的环绕立体声系统由5个全频带声道加一个超低音声道组成,6个声道的信息在制作和还原过程中全部数字化,信息损失很少,细节丰富,具有真正的立体声效果,在数字电视、DVD和家庭影院中广泛使用*数字音频格式RealAudio:是由RealNetworks公司推出的一种文件格式。最大的特点是可以实时传输音频信息,尤其是在网速较慢的情况下,仍然可以较为流畅地传送数据。因此RealAudio主要适用于网络上的在线播放。现在的RealAudio文件格式主要有RA(RealAudio)、RM(RealMedia,RealAudioG2)、RMX(RealAudioSecured)等三种,这些文件的共同性在于随着网络带宽的不同而改变声音的质量。在保证大多数人听到流畅声音的前提下,令带宽较宽敞的听众获得较好的音质。第61页,共92页,星期六,2024年,5月数字音频格式AAC:高级音频编码的缩写。AAC是由FraunhoferIIS—A、杜比和ATT共同开发的一种音频格式,它是MPEG一2规范的一部分。AAC所采用的运算法则与MP3的运算法则有所不同,AAC通过结合其他的功能来提高编码效率。AAC的音频算法在压缩能力上远远超过了以前的一些压缩算法(比如MP3等)。它还同时支持多达48个音轨、l5个低频音轨、更多种采样率和比特率、多种语言的兼容能力、更高的解码效率。总之,AAC可以在比MP3文件缩小30%的前提下提供更好的音质。第62页,共92页,星期六,2024年,5月数字音频格式APE:Monkey’SAudio提供的一种无损压缩格式。Monkey’SAudio提供了Winamp的插件支持,因此这就意味着压缩后的文件不再是单纯的压缩格式,而是和MP3一样可以播放的音频文件格式。压缩效果大约为2:l左右,但能够做到真正无损,因此获得了不少发烧用户的青睐。令人满意的压缩比以及飞快的压缩速度,成为了不少朋友私下交流发烧音乐的唯一选择。第63页,共92页,星期六,2024年,5月数字音频格式OGG格式:全称是OGGVobis。它是一种新的音频压缩格式,类似于MP3等现有的音乐格式。但有所不同的是,它是完全免费、开放和没有专利限制的。OGGVobis有一个很出众的特点,就是支持多声道,随着它的流行,以后用随身听来听DTS编码的多声道作品将不会是梦想。OGGVobis在压缩技术上比MP3好,使它很有可能成为一个流行的趋势,这也正是一些MP3播放器对其支持的原因。另外,如果相同速率录制音频mp3和ogg不分上下,ogg采用更先进的算法还可能会好一些。第64页,共92页,星期六,2024

您可能关注的文档

文档评论(0)

xiaoshun2024 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档