[发明专利]基于参考的语音增强方法在审
申请号: | 202210042390.3 | 申请日: | 2022-01-14 |
公开(公告)号: | CN114360571A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 岳焕景;多文昕;杨敬钰 | 申请(专利权)人: | 天津大学 |
主分类号: | G10L21/0232 | 分类号: | G10L21/0232;G10L25/24 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程毓英 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 参考 语音 增强 方法 | ||
本发明涉及一种基于参考的语音增强方法,包括下列步骤:分析真实环境中的带噪语音,建立加性噪声模型;定义基于参考的语音增强模型;得到带噪语音频谱X与参考语音频谱R;MFCC组匹配获取帧间对应关系;编码器提取深度特征;参考语音特征重组;二段式的特征融合;深度特征解码,得到一个乘性复数掩膜;使用乘性复数掩膜对带噪语音频谱X进行滤波,获得增强语音频谱;通过短时傅里叶变换反变换获得最后的增强语音。
技术领域
本发明属于语音信号处理领域,涉及语音增强算法。
背景技术
真实环境中采集到的语音信号通常含有背景噪声。这些噪声的形式是多种多样的,其存在严重降低了语音的听觉感知质量和可懂度。语音增强的目的便是从被各种各样的噪声干扰、甚至淹没的信号中提取有用的语音信号,同时抑制、降低噪声的干扰。
现有的单通道语音增强方法可以分为两类,一类是传统方法,例如谱减法、维纳滤波法、基于隐马尔可夫模型的方法、基于非负矩阵的方法等。另一类是基于深度学习的方法。
基于深度学习的单通道语音增强方法主要分为时域和频域方法。时域方法通常利用深度神经网络来学习带噪语音和干净语音的一维波形之间的映射关系。由于一维语音信号缺乏明显的几何结构,从其中提取有用的信息较为困难。频域方法对带噪语音信号的二维频谱进行处理,通常有两种方式,一是直接通过深度神经网络重建出干净的语音频谱,二是预测一个时频掩膜以对带噪频谱进行滤波从而生成增强的频谱。虽然以上方法的出现均极大地提高了基于深度学习的单通道语音增强方法的效果,但恢复出的增强语音仍然有部分信息丢失。为了进一步提升语音增强算法的效果,许多借助外部参考的或语音自身固有的先验信息来帮助重建怎强语音的方法被提了出来,例如外部参考的说话人视频中的口部动作先验、表情先验,语音自身固有的或外部干净参考语音含有的说话人身份先验、情绪先验、音素发声特征先验等。其中,由于外部参考语音与目标语音具有相同的说话人(说话内容不同),且其帧级别的音素信息是部分共享的,所以通过引入外部参考语音来辅助进行带噪语音的增强(基于参考的语音增强)能够取得更好的效果。
发明内容
为了进一步提升现有语音增强算法的效果,本发明旨在提供一套基于参考的语音增强算法,本发明所涉及到的语音均为单通道语音。技术方案如下
一种基于参考的语音增强方法,包括下列步骤:
1)分析真实环境中的带噪语音,建立加性噪声模型:
x=y+n
其中,y为干净语音,n为环境噪声,x为带噪语音;
2)定义基于参考的语音增强模型:
其中g为基于参考的语音增强模型;r为带噪语音x所对应的参考语音,即与带噪语音x具有相同说话人但说话可能内容不同的干净语音;为模型输出的增强语音,即对干净语音y的估计;
3)通过短时傅里叶变换将带噪语音x和参考语音r从时域转至频域,得到带噪语音频谱与参考语音频谱其中Tx和Tr分别是X和R的帧数,F为频域点数;
4)MFCC组匹配获取帧间对应关系,方法如下:
从分别从带噪语音频谱X和参考语音频谱R提取MFCC,并将连续3帧的MFCC组合在一起构成一个带噪语音频谱X的MFCC组和一个参考语音频谱R的MFCC组;对于带噪语音的某个MFCC组,通过计算所有参考语音的MFCC组与其的余弦相似度,挑选出余弦相似度最高的5个MFCC组的中间帧与带噪语音的所述MFCC组的中间组构成一个帧间对应关系重复此过程便可以对带噪语音的每一帧得到一个帧间对应关系;
5)编码器提取深度特征,方法如下
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210042390.3/2.html,转载请声明来源钻瓜专利网。