- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
低信噪比条件下的语音端点检测与增强
1引言
语音作为语言的声学表现,是听觉器官对外界声音传播介质机械振动的感知,是人类信息传
递和情感交流的重要载体。目前,语音处理技术要求语音输入在安静的环境下进行,当周围
环境有噪声时,系统性能会急剧下降。然而,语音通信过程不可避免地受到来自周围环境、
传播介质等噪声的影响。语音增强是解决噪声污染的一种有效方法,是语音处理领域的重要
组成部分,广泛应用于语音识别和语音编码等数字语音系统中。由于几乎不可能从带噪语音
信号中提取纯净语音,语音增强主要是改善语音质量,消除背景噪声,提高清晰度和可懂度,
使人乐于接受[1]。针对加性宽带噪声研究,当前国内外语音增强的主要算法有频谱相减法、
自相关法、谐波增强法、自适应噪声对消法、小波变换法、听觉掩蔽法、基于语音生成模型
增强算法以及基于短时谱幅度估计算法,其中广泛使用的主要是谱减法及其变体。谱减法简
单,运算量小,实时性强,增强效果较好;缺点为仅从信噪比角度改善语音质量,另外引入
了音乐噪声[2]。小波分解法和听觉掩蔽法是人们研究的热点,听觉掩蔽法尚处于研究的初
级阶段。人耳能掩蔽语音信号中能量较小的噪声,使得部分噪声不为人们感知[3]。结合人
耳听觉掩蔽效应,笔者提出了改进型的谱减法,对语音增强算法中相关参数进行动态调整,
有效抑制了音乐噪声,提高了语音质量。
语音端点检测将采集的语音信号分为纯噪声段和带噪语音段,判断各语音片段的起止点,是
语音增强算法和语音编码的重要组成部分之一。在语音识别过程中,正确确定语音段的起止
端点,可减少计算量和语音识别误判率。目前,普遍采用的语音端点检测方法,如利用频域
短时能量检测方法,在低信噪比条件下,结果令人难以接受。笔者提出的采用混沌振子模型
有效解决了低信噪比环境下语音端点检测问题。
2预备知识
2.1混沌理论
1963年,美国气象学家E.Lorenz在《大气科学》杂志上发文指出,在气候不能精确重演
与长期天气预报无能为力之间存在一种必然联系,还认为一连串事件可能有一个临界点,在
这一点上,小的变化可产生大的变化。因此,天气预报和气象学的研究开辟了混沌科学。随
后,T.S.Kuhn,李天岩,J.Yorke,R.May等对混沌进行了大量研究与开发。混沌是确
定性系统的内在随机性,其本质是对初始条件的敏感依赖性。20世纪90年代后,混沌科学
广泛应用于信息科学、数学、物理、生物、经济、气象等领域[4]。
物理学中Holmes型Duffing振子
其中,c为阻尼系数;为圆频率ω周期激励(参考信号),其状态方程为
研究发现,当不断改变周期幅度F时,Duffing系统的相图在周期和混沌问进行转换。经分
析可知,系统变化的决定性因素是F/c的大小。当F/c逐渐增大时,系统变化过程为:规
则运动一混沌运动一规则运动。故可推断规则和混沌之间必存在2个临界状态。因此,取F
略小于临界值,将待测信号作为周期激励Fcosωt的微小摄动,利用周期激励和待测信号的
矢量和与临界值的关系,通过相轨迹的变化来检测待测信号。基于Duffing系统的检测方法
有2种:(1)利用Duffing系统的基本混沌特性,把待测信号的频率取为周期策动力的频率,
利用二者幅度和来实现周期运动与混沌运动的转变,缺点为测量频率单一;(2)利用Duffing
系统的间歇混沌特性检测待测信号,优点为测量频率范围较宽。笔者采用后者检测语音端点。
1页
2.2汉语语音的特点
语音主要由清音和浊音组成。浊音在频域有共振峰,能量大部分集中在低频阶段,在时域呈
现周期性;清音没有明显的时域和频域特性。语音是非遍历、非平稳的随机过程,但人的发
音系统的生理结构在一段时间(10~30ms)变化有一定限度,故语音的短时谱具有相对稳定
性。语音短时谱幅度统计是时变的,只有当分析帧长趋于无穷大时,近似认为高斯分布。
2.3人耳的感知特点
语音增强效果取决于人耳的主观感受,人耳对背景噪声有很强的抑制作用。感知机理涉及生
理学、心理学、语音学和声学等领域,有待进一步研究。不过,目前已有些研究结论:人耳
对语音的感知是通过语音信号频谱幅度获得的,对相位不敏感;具有听觉掩蔽效应,即强信
号对弱信号有抑制作用,掩蔽程度是声音强度和频率的二元函数,对频率临近分量的掩蔽程
度比频差较大分量严重得多,高频对低频的掩蔽弱于低频对高频的掩蔽;短时谱共振峰
文档评论(0)