自适应矢量量化在语音识别中的应用.doc

下载文档

3
0
约3.64千字
约 4页
2017-02-14 发布于重庆
举报
版权申诉
保障服务

自适应矢量量化在语音识别中的应用.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

自适应矢量量化在语音识别中的应用

自适应矢量量化在语音识别中的应用张恒河北工业大学信息工程学院通信与信息系统学号：201020195009 摘要：介绍了用离散隐马尔可夫模型( DHMM)构造孤立词语音识别系统中的特征向量矢量量化的码书构造过程。以往的矢量量化通常采用基本算法LBG, 在此基础上, 引入了一种时间复杂性和空间复杂性有所降低的改进算法。该算法的核心是自适应地生成初始码书以及对初始码书的二次构造过程。从降低时间复杂度和节省存储空间,提高识别率的角度, 对该算法进行了讨论。关键词：语音识别；矢量量化；LBG；自适应码书 1 引言现代语音识别中最常用的识别方法是 Baum 等人提出的隐马尔可夫模型(HMM)。HMM 是数学上一类重要的双重随机模型, 用概率统计的方法描述时变语音信号,很好地描述了语音信号的整体非平稳性和局部平稳性。HMM 的各状态对应语音信号的各平稳段, 各状态之间以一定转移概率相联系,是一种较为理想的语音模型。在孤立词语音识别过程中, 通常采用离散隐马尔可夫模型(DHMM) , 取得了比较好的实用效果((([2]。在构造离散隐马尔可夫模型(DHMM) 过程中, 对提取的MFCC特征参数矢量量化的码书构造是其中的一个主要部分, 码书的选择会影响时间和空间的复杂度以及整个系统的识别率。目前为止, 矢量量化的方法很多, 其中最典型的是1980年, Linde, Buzo 和 Gray提出的LBG算法[3]。他可根据给定的训练序列, 经多次递归运算, 求出满足要求的码书和输入矢量的划分。LBG 算法的突出优点是压缩比大且解码算法简单, 已被广泛应用于语音识别或图像编码等领域。 2 LBG算法 LBG算法是一种有效和直观的矢量量化码书设计算法, 其具体算法描述如下[4]: 训练矢量集为为训练适量的个数。给定出师码书：，令迭代次数k=0.平均失真，给定相对误差门限。（2）用码书中的各码字作为质心，根据最佳划分原则把训练矢量集X划分为N个细胞腔，满足：（1）其中。（3）计算平均失真（2）判断相对误差是否满足（3）若满足，则停止算法，码书就是所的码书，否则就转步骤（4）。（4）根据最佳码书条件,计算各细胞腔的质心,即：（4）由这n个新质心，i=0,1，…，N-1 形成新码书，置n=n+1，转步骤（2）。 LBG算法有3个主要缺点： (1) 码书的自适应性不强,不能根据训练矢量集数据的随机分布自适应地取得初始码书; (2) 在每次迭代的最佳划分阶段,从码书中搜索训练矢量的最近码字需要大量的存储空间和繁琐的计算; (3) 初始码书的选择影响码书训练的收敛速度和最终码书的性能。传统的初始码书生成方法或者采用随机生成或者采用分裂法[5]。 3 自适应二阶码书设计算法在这部分中,阐述了一种自适应二阶码书(AutomatorSecond Book,ASB) 生成算法, 他提高了码书的自适应性能,且设计的时间和占用的存储空间与 LBG算法相比均有所降低。 3.1 自适应码书生成传统的矢量量化方法LBG的一个缺点是自适应性不强,ASB 算法自适应的生成一阶码书,提高了码书的自适应性。利用每一语音样本MFCC特征参数的范数，求出每一语音样本MFCC特征参数的范数，即的欧几里德内积。所有MFCC参数中最小的欧氏距离min d，最大的欧氏距离max d。N个码字的平均欧氏距离：（5）在N个等分的同心圆环区域,可以理解为N个同心圆内 (如图1所示)，自适应的划分任一图像子块落在哪一个区域内[6]。（6）通过式(6)自适应地把距离相近的MFC 参数块确定在一个区域范围内，用每一区域内所有子块的平均值作为码字，得到高性能的有代表性的码字。 3.2 二阶码书的生成通过式(5)和式( 6)自适应地生成具有 N 个码字的一阶码书。为了获得更好的压缩比, 节省更多的存储空间考虑对一阶码书进行二次压缩。其中二阶码书的码字个数为M(M N)。经过实验分析, 也取得了理想的效果。以一阶码书作为初始向量集, 进行如下操作: 选定初始向量集中一向量X,每一向量与其的余弦夹角, 其中为的单位化: (7) 所有向量中最小的余弦夹角min a, 最大的余弦夹角max a。M 个码字的平均夹角: avg (8) 在M个等分的角度空间内，自适应的划分任一向量落在哪一个区域内如图2所示。（9） 3.3 算法步骤 (1) 设训练矢量集为，通过欧几里德内积求出每一MFCC特征参数的二范数并对其标准化。 (2)将二范数的最大值与最小值的N 等份，求出每一等份的等均值，N 为码字的个数。 (3) 利用上步所求等均值计算出落在第 I