语音信号处理.ppt

下载文档

1
0
约6.04千字
约 35页
2024-03-31 发布于广东
举报
版权申诉
保障服务

语音信号处理.ppt

1、本文档共35页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于失真的VQ方法第32页,共35页，2024年2月25日，星期天离散/连续各态经历HMM基于VQ失真测度的方法是一种无记忆语音源模型，及独立时间序列源模型。第33页,共35页，2024年2月25日，星期天混合高斯分布模型图10-12是一个具有三个混合函数的混合高斯分布模型和三状态各态历经连续HMM的例子。第34页,共35页，2024年2月25日，星期天感谢大家观看第35页,共35页，2024年2月25日，星期天关于语音信号处理10.1概述自动说话人识别（AutomaticSpeakerRecognition简称ASR），又称为话者识别或声纹识别，是一种自动识别说话人的过程。说话人识别和语音识别的区别在于，它不注重包含在语音信号内的文字符号以及语意内容信息，而是着眼于包含在语音信号中的个人特征，提取说话人的这些个人信息特征，以达到识别说别说话人的目的。按其最终完成的任务可以分为两类：*自动说话人确认（AutomaticSpeakerVerification，简称ASV）：确认一个人的身份，只涉及一个特定的参考模型和待识别模式之间的比较，只做“是”和“不是”的判决。*自动说话人辨认(AutomaticSpeakerIdentification,简称ASI)：必须辨认出待识别的语音是来自待考察人中的哪一个，有时还要对这个人以外的语音做出拒绝的判决。第2页,共35页，2024年2月25日，星期天10.2说话人识别方法和系统结构说话人识别就是从说话人的一段语音中提取出说话人的个性特征，通过对这些个人特征的分析和识别，从而达到对说话人进行辨认或者确认的目的。图10-1是说话人识别系统的结构框图，它由预处理、特征提取、模式匹配和判决等几大部分组成。第3页,共35页，2024年2月25日，星期天10.2.1预处理包括对输入计算机的语音数据进行端点检测、预加重、加窗、分针等。10.2.2说话人识别特征的选取在说话人识别系统中特征提取是最重要的一环，特征提取就是从说话人的语音信号中提取出表示说话人个性的基本特征。在理想情况下，选取的特征应当满足下述准则：能够有效地区分不同的说话人，但又能在同一说话人的语音发生变化时相对保持稳定。易于从语音信号中提取不易被模仿尽量不随时间和空间变化第4页,共35页，2024年2月25日，星期天如果把说话人识别中常用的参数加以简要归类，可划分为以下几类：线性预测参数及其派生参数语音频谱直接导出的参数混合参数其他鲁棒性参数上表是日本人Matui和Furui在1990年针对倒谱特征和基音特征所作的比较实验结果所用特征误识率/（%）倒谱差值倒谱基音差值基音倒谱与差值倒谱倒谱、差值倒谱与基音、差值基音9.4311.8174.4285.887.932.89第5页,共35页，2024年2月25日，星期天10.2.3特征参量评估方法F比：在给定一种识别方法后，识别的效果主要取决于特征参数的选取。对于某一维单个的参数而言，可以用F来表征它在说话人识别中的有效性。F越大表示越有效，即不同说话人的特征量的均值分布的离散程度分布得越散越好；而同一个人的越集中越好。第6页,共35页，2024年2月25日，星期天10.2.3特征参量评估方法D比：把F比的概念推广到多维，用以衡量多维特征矢量在说话人识别系统中的有效性。F比没有考虑到特征矢量中各维参数之间的相关性。定义两个协方差矩阵，即说话人间的协方差矩阵B和说话人内协方差矩阵W，定义对多维特征矢量的可分性测度——散度，即D比为:第7页,共35页，2024年2月25日，星期天10.2.4模式匹配方法概率统计方法通过对稳态特征（基音、声门增益、低阶反射系数等）的统计分析，利用均值、方差等统计量和概率密度函数进行分类判决。优点：不用对特征参量在时域上进行规整，适合与文本无关的说话人识别。动态时间规整方法（DTW）将识别模板与参考模板进行时间对比，按照某种距离测度得出两个模板之间的相似程度。常用的分法：基于最近邻原则的动态时间规整。矢量量化方法（VQ）将每个人的特定文本训练成码本，识别时将测试文本按此码本进行编码，以量化产生的失真度作为判决标准。优点：速度快，识别精度不低。第8页,共35页，2024年2月25日，星期天10.2.4模式匹配方法隐马尔科夫模型方法（HMM）为每个说话人建立发声模型，通过训练得到状态转移概率矩阵和符号输出矩阵；识别时计算未知