低信噪比条件下的语音端点检测与增强.pdf

下载文档

0
0
约5.21千字
约 4页
2024-07-02 发布于河南
举报
版权申诉
保障服务

低信噪比条件下的语音端点检测与增强.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

低信噪比条件下的语音端点检测与增强

1引言

语音作为语言的声学表现，是听觉器官对外界声音传播介质机械振动的感知，是人类信息传

递和情感交流的重要载体。目前，语音处理技术要求语音输入在安静的环境下进行，当周围

环境有噪声时，系统性能会急剧下降。然而，语音通信过程不可避免地受到来自周围环境、

传播介质等噪声的影响。语音增强是解决噪声污染的一种有效方法，是语音处理领域的重要

组成部分，广泛应用于语音识别和语音编码等数字语音系统中。由于几乎不可能从带噪语音

信号中提取纯净语音，语音增强主要是改善语音质量，消除背景噪声，提高清晰度和可懂度，

使人乐于接受［1］。针对加性宽带噪声研究，当前国内外语音增强的主要算法有频谱相减法、

自相关法、谐波增强法、自适应噪声对消法、小波变换法、听觉掩蔽法、基于语音生成模型

增强算法以及基于短时谱幅度估计算法，其中广泛使用的主要是谱减法及其变体。谱减法简

单，运算量小，实时性强，增强效果较好；缺点为仅从信噪比角度改善语音质量，另外引入

了音乐噪声［2］。小波分解法和听觉掩蔽法是人们研究的热点，听觉掩蔽法尚处于研究的初

级阶段。人耳能掩蔽语音信号中能量较小的噪声，使得部分噪声不为人们感知［3］。结合人

耳听觉掩蔽效应，笔者提出了改进型的谱减法，对语音增强算法中相关参数进行动态调整，

有效抑制了音乐噪声，提高了语音质量。

语音端点检测将采集的语音信号分为纯噪声段和带噪语音段，判断各语音片段的起止点，是

语音增强算法和语音编码的重要组成部分之一。在语音识别过程中，正确确定语音段的起止

端点，可减少计算量和语音识别误判率。目前，普遍采用的语音端点检测方法，如利用频域

短时能量检测方法，在低信噪比条件下，结果令人难以接受。笔者提出的采用混沌振子模型

有效解决了低信噪比环境下语音端点检测问题。

2预备知识

2．1混沌理论

1963年，美国气象学家E．Lorenz在《大气科学》杂志上发文指出，在气候不能精确重演

与长期天气预报无能为力之间存在一种必然联系，还认为一连串事件可能有一个临界点，在

这一点上，小的变化可产生大的变化。因此，天气预报和气象学的研究开辟了混沌科学。随

后，T．S．Kuhn，李天岩，J．Yorke，R．May等对混沌进行了大量研究与开发。混沌是确

定性系统的内在随机性，其本质是对初始条件的敏感依赖性。20世纪90年代后，混沌科学

广泛应用于信息科学、数学、物理、生物、经济、气象等领域［4］。

物理学中Holmes型Duffing振子

其中，c为阻尼系数；为圆频率ω周期激励(参考信号)，其状态方程为

研究发现，当不断改变周期幅度F时，Duffing系统的相图在周期和混沌问进行转换。经分

析可知，系统变化的决定性因素是F/c的大小。当F／c逐渐增大时，系统变化过程为：规

则运动一混沌运动一规则运动。故可推断规则和混沌之间必存在2个临界状态。因此，取F

略小于临界值，将待测信号作为周期激励Fcosωt的微小摄动，利用周期激励和待测信号的

矢量和与临界值的关系，通过相轨迹的变化来检测待测信号。基于Duffing系统的检测方法

有2种：(1)利用Duffing系统的基本混沌特性，把待测信号的频率取为周期策动力的频率，

利用二者幅度和来实现周期运动与混沌运动的转变，缺点为测量频率单一；(2)利用Duffing

系统的间歇混沌特性检测待测信号，优点为测量频率范围较宽。笔者采用后者检测语音端点。

1页

2．2汉语语音的特点

语音主要由清音和浊音组成。浊音在频域有共振峰，能量大部分集中在低频阶段，在时域呈

现周期性；清音没有明显的时域和频域特性。语音是非遍历、非平稳的随机过程，但人的发

音系统的生理结构在一段时间(10～30ms)变化有一定限度，故语音的短时谱具有相对稳定

性。语音短时谱幅度统计是时变的，只有当分析帧长趋于无穷大时，近似认为高斯分布。

2．3人耳的感知特点

语音增强效果取决于人耳的主观感受，人耳对背景噪声有很强的抑制作用。感知机理涉及生

理学、心理学、语音学和声学等领域，有待进一步研究。不过，目前已有些研究结论：人耳

对语音的感知是通过语音信号频谱幅度获得的，对相位不敏感；具有听觉掩蔽效应，即强信

号对弱信号有抑制作用，掩蔽程度是声音强度和频率的二元函数，对频率临近分量的掩蔽程

度比频差较大分量严重得多，高频对低频的掩蔽弱于低频对高频的掩蔽；短时谱共振峰

您可能关注的文档

文档评论（0）

各类考试卷精编 + 关注: 官方认证

内容提供者

各类考试卷、真题卷

咨询Ta 进入空间

认证主体社旗县兴中文具店（个体工商户）

IP属地河南

统一社会信用代码/组织机构代码: 92411327MAD627N96D

1亿VIP精品文档

更多 >

低信噪比条件下的语音端点检测与增强.pdf