[发明专利]一种embedding编解码器的语音增强系统及方法有效
申请号: | 201911314132.0 | 申请日: | 2019-12-19 |
公开(公告)号: | CN111009252B | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 蓝天;叶文政;刘峤;吴祖峰;钱宇欣;吕忆蓝;李森;彭川;李萌;惠国强 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L19/16 |
代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 陈选中 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 embedding 编解码器 语音 增强 系统 方法 | ||
1.一种embedding编解码器的语音增强系统,其特征在于,包括基于长短期记忆神经网络的embedding编码器、与所述embedding编码器连接的长期记忆模块、与所述长期记忆模块连接的注意力模块以及基于卷积神经网络的embedding解码器网络;
所述基于长短期记忆神经网络的embedding编码器用于分别对纯净语音语谱图和带噪语音语谱图进行编码,产生纯净语音的embedding阵列以及带噪语音的embedding阵列;
所述长期记忆模块由纯净语音的embedding阵列产生,用于从带噪语音embedding阵列中提取语音特征;
所述注意力模块用于利用含有纯净语音特征的长期记忆从带噪语音的embedding阵列中提取语音特征,形成新的embedding阵列;
所述基于卷积神经网络的embedding解码器网络用于将新的embedding阵列还原为增强语音语谱图;
所述基于长短期记忆神经网络的embedding编码器包括1层全连接网络,以及与所述全连接网络连接且位于所述全连接网络后端的2层长短期记忆网络,且所述embedding编码器产生的embedding阵列尺寸为(F×T×E),其中,F表示频率,T表示时间,E表示embedding向量的尺寸;
所述基于卷积神经网络的embedding解码器网络由1层卷积神经网络组成,其卷积核大小为3×3,其输入输出通道数分别为40和1。
2.一种embedding编解码器的语音增强方法,其特征在于,包括如下步骤:
S1、分别对训练集中的纯净语音和带噪语音进行短时傅里叶变换处理,得到纯净语音以及带噪语音的语谱图;
S2、利用embedding编码器分别对所述纯净语音和带噪语音的语谱图进行编码,产生纯净语音的embedding阵列以及带噪语音的embedding阵列,并通过所述纯净语音的embedding阵列产生长期记忆;
S3、将带噪语音的embedding阵列和所述长期记忆输入至注意力模块,并利用含有纯净语音特征的长期记忆从所述带噪语音的embedding阵列中产生堆叠时频掩蔽层,并利用所述堆叠时频掩蔽层提取语音特征,形成新的embedding阵列;
所述步骤S3包括如下步骤:
S301、将带噪语音的embedding阵列和所述长期记忆输入至注意力模块,并分别对所述带噪语音的embedding阵列和含有纯净语音特征的长期记忆进行注意力计算得到时频掩蔽;
所述步骤S301中时频掩蔽的表达式如下:
at,f=sigmoid(M·At,f)
其中,M表示长期记忆,At,f表示embedding阵列中的每个embedding向量,at,f表示时频掩蔽层的每个时频单元;
S302、将所述时频掩蔽进行复制和堆叠,产生堆叠时频掩蔽层,并将堆叠时频掩蔽层的尺寸与embedding阵列的尺寸保持一致;
所述步骤S302中堆叠时频掩蔽层的尺寸为(F×T×E),其中,F表示频率,T表示时间、E表示embedding向量的尺寸;
S303、利用所述堆叠时频掩蔽层从embedding阵列中提取语音特征,形成新的embedding阵列;
所述步骤S303中提取语音特征A'的表达式如下:
A'=A⊙SM
其中,A表示embedding阵列,SM表示堆叠的时频掩蔽层,⊙表示矩阵点乘;
S4、利用基于卷积神经网络的embedding解码器网络将所述新的embedding阵列还原为增强语音语谱图,实现语音增强。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911314132.0/1.html,转载请声明来源钻瓜专利网。