[发明专利]一种基于LSTM的后期混响抑制方法及系统在审
申请号: | 202010023100.1 | 申请日: | 2020-01-09 |
公开(公告)号: | CN111462770A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 计健雄;郭鹏 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0224;G10L25/12;G10L25/18;G10L25/30;G10L25/45 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lstm 后期 混响 抑制 方法 系统 | ||
1.一种基于LSTM的后期混响抑制方法,其特征在于,包括以下步骤:
S1、对待处理的混响语音信号进行分帧,并提取各帧的频谱特征序列;
S2、将所得各帧的频谱特征序列依次输入到预训练好的后期混响抑制网络中,对所述频谱特征序列中的后期混响特征进行抑制,得到各帧的增强信号特征序列;
S3、对所得各帧的增强信号特征序列进行恢复,得到后期混响抑制后的语音信号;
其中,所述增强信号特征包括干语音和前期反射信号特征;所述后期混响抑制网络为基于LSTM的网络,用于根据语音信号在时域上的关联信息,对频谱特征序列中的后期混响特征进行实时过滤。
2.根据权利要求1所述的基于LSTM的后期混响抑制方法,其特征在于,所述S1包括:对分帧所得各帧语音信号进行傅里叶变换,归一化后,得到各帧的频谱特征序列。
3.根据权利要求1所述的基于LSTM的后期混响抑制方法,其特征在于,所述后期混响抑制网络包括:后期混响提取网络和抑制层;
所述后期混响提取网络的输出端与所述抑制层的输入端相连;
所述后期混响提取网络用于基于语音信号的上下文信息,实时提取频谱特征序列中各特征的后期混响特征,并输出到所述抑制层中;
所述抑制层用于接收频谱特征序列和所述后期混响提取网络输入的后期混响特征,并对频谱特征序列各特征中的后期混响特征进行过滤,得到增强信号特征序列。
4.根据权利要求3所述的基于LSTM的后期混响抑制方法,其特征在于,所述后期混响提取网络包括LSTM、线性映射层和激活层;
所述LSTM的输出端与所述线性映射层的输入端相连,所述线性映射层的输出端与所述激活层的输入端相连;
所述LSTM用于在时间序列上对语音信号进行建模,实时提取频谱特征序列中各特征所对应的后期混响信号初级特征,并输出到所述线性映射层中;
所述线性映射层用于调整LSTM输入的后期混响信号初级特征的维度,并将调整后的特征输出到所述激活层中;
所述激活层用于对所述线性映射层输入的特征进行非线性化,得到频谱特征序列中各特征的后期混响特征。
5.根据权利要求4所述的基于LSTM的后期混响抑制方法,其特征在于,所述LSTM有多个,各LSTM串行连接。
6.根据权利要求5所述的基于LSTM的后期混响抑制方法,其特征在于,所述后期混响提取网络还包括dropout层,置于相邻的两个LSTM之间,用于防止所述后期混响抑制网络过拟合。
7.根据权利要求1所述的基于LSTM的后期混响抑制方法,其特征在于,所述后期混响抑制网络的训练方法,包括以下:
S01、收集多个干净语音和混响冲击响应,将二者进行卷积,得到混响语音信号;选取上述混响冲击响应中前期反射信号对应的冲击响应,与上述各干净语音进行卷积,得到前期混响信号,所得混响语音信号和对应前期混响信号共同构成训练样本;
S02、分别对训练样本中的混响语音信号及其对应的前期混响信号进行分帧,并分别提取混响语音信号及其对应的前期混响信号各帧的频谱特征序列;
S03、将所得训练样本中混响语音信号各帧的频谱特征序列中的各特征作为输入,与其对应的前期混响信号各帧的频谱特征序列中的各特征作为输出,按照时间顺序输入到后期混响抑制网络中,依次对后期混响抑制网络训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010023100.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:蓄电池组和具有蓄电池组的地面处理设备
- 下一篇:多模生物特征融合方法和系统