[发明专利]基于参考的语音增强方法在审
申请号: | 202210042390.3 | 申请日: | 2022-01-14 |
公开(公告)号: | CN114360571A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 岳焕景;多文昕;杨敬钰 | 申请(专利权)人: | 天津大学 |
主分类号: | G10L21/0232 | 分类号: | G10L21/0232;G10L25/24 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程毓英 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 参考 语音 增强 方法 | ||
1.一种基于参考的语音增强方法,包括下列步骤:
1)分析真实环境中的带噪语音,建立加性噪声模型:
x=y+n
其中,y为干净语音,n为环境噪声,x为带噪语音;
2)定义基于参考的语音增强模型:
其中g为基于参考的语音增强模型;r为带噪语音x所对应的参考语音,即与带噪语音x具有相同说话人但说话可能内容不同的干净语音;为模型输出的增强语音,即对干净语音y的估计;
3)通过短时傅里叶变换将带噪语音x和参考语音r从时域转至频域,得到带噪语音频谱与参考语音频谱其中Tx和Tr分别是X和R的帧数,F为频域点数;
4)MFCC组匹配获取帧间对应关系,方法如下:
从分别从带噪语音频谱X和参考语音频谱R提取MFCC,并将连续3帧的MFCC组合在一起构成一个带噪语音频谱X的MFCC组和一个参考语音频谱R的MFCC组;对于带噪语音的某个MFCC组,通过计算所有参考语音的MFCC组与其的余弦相似度,挑选出余弦相似度最高的5个MFCC组的中间帧与带噪语音的所述MFCC组的中间组构成一个帧间对应关系重复此过程便可以对带噪语音的每一帧得到一个帧间对应关系;
5)编码器提取深度特征,方法如下
编码器由3个级联的卷积层构成,每个卷积层都包含复数卷积、批标准化、LeakyReLu激活3个部分,其中复数卷积通过控制步长来对输入进行频域下采样,使用同一个编码器对X和R分别进行处理,得到3对不同深度的带噪特征和参考特征
6)参考语音特征重组,方法如下:
对于每一个基于相应的帧间对应关系对进行重组,构成5个与维度相同的重组参考特征
7)二段式的特征融合,方法如下:
第一阶段,通过softmax函数对与的幅度值的帧间余弦相似度进行归一化生成权重系数随后基于权重系数对5个进行卷积融合,得到
第二阶段,使用通道注意力将与进行融合,得到
8)深度特征解码,方法如下:
解码器由4个残差块和3个级联的转置卷积层构成,每个残差块由复数卷积、ReLu激活、复数卷积、ReLu激活构成,前两个转置卷积层包含复数转置卷积、批标准化、LeakyReLu激活3个部分,最后一个转置卷积层只有复数转置卷积操作;解码器中的每一个转置卷积操作都可以通过控制步长来对输入进行频域上采样;解码器首先将送入4个残差块得到随后使用3个转置卷积层对其逐级进行上采样,并在每次进入转置卷积层之前与相应的合并在一起:
其中,decodei指第i个转置卷积层;
最后使用tanh激活函数对解码器输出的的幅度谱进行处理,得到一个乘性复数掩膜M:
9)使用乘性复数掩膜M对带噪语音频谱X进行滤波,获得增强语音频谱
10)通过短时傅里叶变换反变换将从频域转换至时域获得最后的增强语音
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210042390.3/1.html,转载请声明来源钻瓜专利网。