[发明专利]基于简化注意力编解码网络的滤波求和多通道语音分离方法在审

申请号：	202211515165.3	申请日：	2022-11-29
公开（公告）号：	CN115910092A	公开（公告）日：	2023-04-04
发明（设计）人：	庄程浩;周琳;许越;曹焱翔;邓宇汐;程云苓;王启瑞	申请（专利权）人：	东南大学
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L19/00;G10L19/008;G10L19/26
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	沈廉
地址：	211102 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于简化注意力解码网络滤波求和通道语音分离方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公布了一种基于简化注意力编解码网络的滤波求和多通道语音分离方法。本发明选择多通道语音中的某一通道作为参考通道，计算参考通道语音与其余通道语音的归一化互相关特征值、参考通道语音的嵌入特征，两类特征作为第一个简化注意力编解码网络的输入特征，输出参考通道的预滤波器参数，对参考通道语音进行滤波，得到各声源的预分离语音；计算其余通道语音与预分离语音的归一化互相关特征、其余通道语音的嵌入特征，作为第二个简化注意力网络的输入，输出其余通道的滤波器参数，对其余通道语音进行滤波处理，得到各声源的分离语音，与各声源的预分离语音进行求和，得到各声源的最终分离语音。

技术领域

本发明属于语音信号分离领域，尤其涉及基于简化注意力编解码网络的滤波求和多通道语音分离方法。

背景技术

早在1953年，Cherry就提出了“鸡尾酒会问题”，指在噪声、混响、多说话人条件下，将目标说话人语音分离。多通道语音分离指两个及以上语音采集设备，同时利用语音频谱信息和说话者的空间信息进行多说话人语音分离。近年来，基于深度学习的语音分离取得了很大进展，基于阵列的语音分离算法采用时间卷积网络TCN(Temporal ConvolutionalNetwork)、双路径循环神经网络DPRNN(Dual-Path Recurrent Neural Network)等网络结构，但在低信噪比、高混响的环境下，以上神经网络方法的语音分离性能下降明显。

发明内容

本发明目的在于提供一种基于简化注意力编解码网络的滤波求和多通道语音分离方法,使用简化注意力编解码网络作为滤波求和结构的时序建模网络，能通过注意力机制从整体综合不同时间步的信息，又可以借助位置编码和多头注意力来使得编码所得的不同的查询向量关注不同时间步、不同分辨率的综合信息，可以更好地计算滤波器参数，在较高的信噪比和较低的混响环境中，与主流算法的性能十分接近，而在低信噪比、高混响的环境中，该发明算法性能优于主流算法，以解决提高在低信噪比、高混响的环境下语音分离算法中空间滤波器设计问题。

为解决上述技术问题，本发明的具体技术方案如下：

一种基于简化注意力编解码网络的滤波求和多通道语音分离方法，该方法包含以下步骤：

步骤1、对包含多个声源的多通道语音信号进行分帧，得到帧级别的各通道语音信号，从中选择一个通道的语音信号作为参考通道语音信号，计算与其余通道语音信号的归一化互相关特征，计算参考通道语音信号的嵌入特征，将归一化互相关特征和嵌入特征进行拼接，拼接后的参数作为第一个简化注意力编解码网络的输入特征，输出针对参考通道语音信号的滤波器参数；

步骤2、利用步骤1中简化注意力编解码网络输出的滤波器参数对参考通道语音信号进行滤波，得到各声源的预分离语音信号；

步骤3、计算步骤2中的各声源的预分离语音信号与其余通道语音信号的归一化互相关特征，计算其余通道语音信号的嵌入特征，将归一化互相关特征和嵌入特征进行拼接，拼接后的参数作为第二个简化注意力编解码网络的输入，输出针对其余通道语音信号的滤波器参数；

步骤4、利用步骤3中得到的其余通道的滤波器参数对相应通道的语音信号进行滤波，得到从其余通道语音信号分离出的各声源语音信号，将各声源的预分离语音信号与其余通道分离的各声源语音信号进行相加，得到各声源的最终分离语音。

进一步的，步骤1具体包括以下步骤：选择一个参考通道，设其编号为1，首先计算参考通道语音信号和其余通道语音信号之间的归一化互相关值：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211515165.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种宽频段可控温的材料反射率测量装置
下一篇：活性碳纤维毡原料恒温浸泡设备及其浸泡方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于简化注意力编解码网络的滤波求和多通道语音分离方法在审

专利文献下载