[发明专利]一种基于低频音节识别的语音增强方法在审
申请号: | 202011095086.2 | 申请日: | 2020-10-14 |
公开(公告)号: | CN112233657A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 吕勇 | 申请(专利权)人: | 河海大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/26;G10L21/0224;G10L25/24 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 王恒静 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 低频 音节 识别 语音 增强 方法 | ||
本发明公开一种基于低频音节识别的语音增强方法,首先将语音的幅度谱划分为若干个子带,统计每个音节在每个子带上语音存在的概率;然后,对含噪测试语音提取低频特征向量,用低频声学模型将其识别为某个音节,得到当前语音每个子带上语音存在的概率;最后,根据子带语音存在概率,用加权谱减法对含噪语音的幅度谱进行增强。本发明可以根据低频语音识别的结果确定待识别语音每个子带上的语音存在概率,并将其用于加权谱减,提高增强后语音的信噪比和可懂度。
技术领域
本发明属于语音识别技术领域,具体涉及到一种基于低频音节识别的语音增强方法。
背景技术
在实际应用中,语音信号容易受到各种噪声的干扰,接收端收到的信号一般都是含噪语音。因此,在接收端就需要用语音增强技术抑制噪声干扰,降低噪声对语音的影响,提高语音信号的信噪比,从含噪语音中提取有用的语音信号。
谱减法是一种常用的语音增强方法,它根据静音段估得的噪声幅度谱均值,对每个语音帧的幅度谱进行增强,用含噪语音幅度谱与噪声幅度谱均值的差作为纯净语音幅度谱的估计值。但是,噪声是一种随机信号,在每一帧某个频率处的实际幅度值最高可以达到平均值的6~8倍,这就使得谱减后的语音还残留有大量的噪声。虽然加权谱减法可以在一定程度上提高增强效果,但是在高频段语音的能量较小,容易被噪声淹没,很难判断高频谱中哪些是语音,哪些是噪声。如果将语音当作噪声减去,就会降低语音的质量,影响增强后语音的音质;如果将噪声当作语音保留,就会使得增强后语音的残留噪声过多,影响语音的可懂度。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于低频音节识别的语音增强方法,解决了语音增强后语音音质差的问题。
技术方案:本发明提出一种基于低频音节识别的语音增强方法,包括如下步骤:
(1)在训练阶段,将各个训练语音文本切分为音节,得到每个音节的训练语音,统计每个音节在每个子带上语音存在的概率;
(2)对训练语音进行低通滤波,提取低频率部分的特征,得到低频美尔频率倒谱系数;
(3)对训练语音的低频美尔频率倒谱系数进行模型训练,得到每个音节的低频声学模型;
(4)对需要识别的含噪语音进行预处理,并对其进行低通滤波,得到含噪语音的低频美尔频率倒谱系数;
(5)用训练阶段得到的低频声学模型对含噪语音的低频美尔频率倒谱系数进行识别,得到音节信息;根据所述音节信息,得到当前语音在每个子带上语音存在的概率;
(6)在每一帧的每个子带上用语音存在概率对含噪语音的幅度谱进行加权谱减,得到增强后的语音幅度谱;
(7)对增强后的语音信号进行逆快速傅里叶变换运算,得到时域信号;
(8)对增强后的时域帧信号进行重叠相加,得到增强后的连续语音。
进一步地,包括:
所述步骤(4)中,对含噪语音进行预处理,包括加窗、分帧和FFT,得到每帧信号的幅度谱|X(k)|和相位谱arg[X(k)],幅度谱|X(k)|用于低频音节识别和幅度增强,相位谱arg[X(k)]用于在后端恢复时域信号。
进一步地,包括:
设含噪语音经过预处理、加窗、分帧后的一帧信号为x(n),则其频谱X(k)通过下式得到:
其中,N0表示帧长。
进一步地,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011095086.2/2.html,转载请声明来源钻瓜专利网。