- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
mfcc维倒谱分量对说话人识别和语音识别的影响
0 特征分量对识别性能的影响
与人类听觉系统的非凡感知能力相比,目前的语音识别和语言识别等机器仪表仍然存在许多问题,尤其是在不利的噪声环境下,系统性能急剧下降。语音识别和说话人识别系统中特征提取过程就是抽取保持语音最重要特征,并消除与语音无关信号的干扰,其性能对识别系统的性能有直接影响。寻找具有良好性能的特征及其提取算法是提高识别系统性能的根本途径之一。目前,常用的语音特征包括基于声道的LPCC、基于临界带的MFCC以及基于临界带和等响度曲线的PLP,考虑语音动态特性的一阶和二阶差分倒谱,考虑语音时域特性的RASTA滤波,还有其他基于听觉模型的特征。
在语音识别和说话人识别的特征中,通常丢弃第零阶倒谱系数以归一化功率谱,为什么只丢弃第零阶倒谱系数?还有没有其他阶倒谱系数需要丢弃?Juang提出适合语音识别的升余弦(Raised-Sine)倒谱提升,甄斌等提出适合说话人识别的半升余弦(Half Raised-Sine)倒谱提升。不同的倒谱窗口对识别率有较大的影响,它暗示不同倒谱系数项对识别的贡献是不一样的。由此引出这样一个重要问题,即提取的所有特征分量是否都对识别有贡献?它们对识别目标的重要程度是否相同?同时还有特征的抗噪声性问题。
本文以目前较为常用的MFCC特征为例,采用增减特征分量的方法评价MFCC各阶系数对语音识别和说话人识别性能的影响。在第二部分介绍了倒谱分量相对重要性评价方法,第三部分是使用的标准语音库,第四部分是MFCC各分量对语音识别和说话人识别的相对重要性,最后是讨论和结论。
1 不同特征分量的本构模型
评价特征对识别的贡献有两种方法,通过定义各分量的F比可以得到各特征分量的区分能力,还可直接进行识别,通过增减分量的方法考察每个特征分量的贡献。本文采用第二种方法,每个MFCC倒谱分量的平均贡献R(i)由下式计算:
式中,n是倒谱阶数,p(i,j)是以i阶到j阶倒谱系数为特征的识别率。图1是式(1)的图示说明,比如,以第0至2阶倒谱系数为特征的识别率p(0,2)减去以第0至1阶倒谱系数为特征的识别率p(0,1),就得到在以C0~C1为特征时倒谱分量C2对识别的贡献。将在所有可能的顺序组合的C2贡献的平均就得到本文定义的C2的平均贡献(相对重要性)。
正值的平均贡献R(i)表明由于添加该特征往往会使识别率增加(识别率增加的多少同所利用的其他倒谱特征分量有关。在某种特定的特征分量组合下,也有可能使得识别率降低。但从所有特征分量可能的顺序组合平均,包含该特征的识别率总体是增加的),负的平均贡献R(i)则相反。由于本文实验仅顺序添加或舍弃特征分量,因此平均贡献R(i)仅表示该分量的相对重要性,而不表示各分量之间的相互依赖关系,对语音识别和说话人识别都是如此。
2 测试样本及测试环境
识别数据库为TI46,数据库包含8男8女,样本内容为0~9共10个孤立的英文数字,包括训练集和测试集,训练集为一次录音,每个数字发10遍,测试集8次录音,每个数字每次发2遍,抽样频率12 500 Hz。
识别时,从训练集中取的10遍录音作为训练样本,以测试集中16遍录音作为测试样本,测试中加入零均值的高斯加性白噪声和卷积噪声。卷积噪声指训练语音和识别语音通过不同的通信信道,如不同的麦克风或电话线路所引入的失真,这里将测试集语音通过4阶Butterworth带通滤波器(滤波器-3 dB带宽为100~3 300 Hz,幅度频响如图2所示),近似模拟固定电话信道的频率响应。识别试验在各种噪声不同信噪比SNR进行,SNR定义为干净语音能量与加性噪声能量之比。
由于试验的目的是比较MFCC各分量对识别的贡献,而不是刻意追求最高的识别率,本文采用简单而有效的DTW识别器。MFCC帧长256点,约20.48 ms,帧移128点,计算FFT后由Mel滤波器规整。Mel滤波器中心频率在100~1 000 Hz间隔100 Hz,1 000 Hz以上中心频率与带宽之比为1.149。
3 相对重要性的mnmc片段
3.1 mfcc分量c0和c3
表1是干净语音条件下MFCC各分量顺序组合的说话人识别,行方向为起始MFCC分量,列方向为截止MFCC分量。由表1按式(1)计算可得到说话人识别各倒谱分量的平均贡献,如图3所示,每个填充块的高低表示由于识别时包含该维MFCC特征系数而增加的平均识别率,横坐标是倒谱系数序号。C0和C1负的平均贡献表示使用包含该分量的MFCC特征往往引起识别率降低,比如利用MFCC分量C0到C16的识别率是70.62%,利用MFCC分量C1到C16的识别率增加到85.6%,而利用MFCC分量C2到C16的识别率又增加至91.38%。同时由图可知,最有用的说话人信息包含在MFCC分量C2到C16间
文档评论(0)