[发明专利]基于简化注意力编解码网络的滤波求和多通道语音分离方法在审

申请号：	202211515165.3	申请日：	2022-11-29
公开（公告）号：	CN115910092A	公开（公告）日：	2023-04-04
发明（设计）人：	庄程浩;周琳;许越;曹焱翔;邓宇汐;程云苓;王启瑞	申请（专利权）人：	东南大学
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L19/00;G10L19/008;G10L19/26
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	沈廉
地址：	211102 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于简化注意力解码网络滤波求和通道语音分离方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于简化注意力编解码网络的滤波求和多通道语音分离方法，其特征在于，该方法包含以下步骤：

步骤1、对包含多个声源的多通道语音信号进行分帧，得到帧级别的各通道语音信号，从中选择一个通道的语音信号作为参考通道语音信号，计算与其余通道语音信号的归一化互相关特征，计算参考通道语音信号的嵌入特征，将归一化互相关特征和嵌入特征进行拼接，拼接后的参数作为第一个简化注意力编解码网络的输入特征，输出针对参考通道语音信号的滤波器参数；

步骤2、利用步骤1中简化注意力编解码网络输出的滤波器参数对参考通道语音信号进行滤波，得到各声源的预分离语音信号；

步骤3、计算步骤2中的各声源的预分离语音信号与其余通道语音信号的归一化互相关特征，计算其余通道语音信号的嵌入特征，将归一化互相关特征和嵌入特征进行拼接，拼接后的参数作为第二个简化注意力编解码网络的输入，输出针对其余通道语音信号的滤波器参数；

步骤4、利用步骤3中得到的其余通道的滤波器参数对相应通道的语音信号进行滤波，得到从其余通道语音信号分离出的各声源语音信号，将各声源的预分离语音信号与其余通道分离的各声源语音信号进行相加，得到各声源的最终分离语音。

2.根据权利要求1所述的基于简化注意力编解码网络的滤波求和多通道语音分离方法，其特征在于，步骤1具体包括以下步骤：选择一个参考通道，设其编号为1，首先计算参考通道语音信号和其余通道语音信号之间的归一化互相关值：

其中是参考通道接收到的第t帧信号，并且引入了前后帧的数据，即样本从tH-L～tH+2L-1组成的长度为3L的信号，H表示分帧时的帧移；表示从3L长度的参考通道信号中取出的长度为L的信号，j表示样本点的起始序号，表示维度是1×L的实数向量；表示第m个通道接收的第t帧信号，|| ||表示向量模，表示内积计算；表示第t帧、参考通道信号与第m个通道信号的归一化互相关值，按照j序号连接起来得到2L+1维的归一化互相关函数

将归一化互相关函数对不同通道求平均，从而得到第t帧的归一化互相关特征NCC_t：

其中为第t帧的归一化互相关特征；

嵌入特征的计算公式为：

其中为参考通道接收的第t帧信号；表示计算嵌入的权重矩阵，是可学习参数，K_u表示嵌入向量的维度；

将这两类特征拼接起来作为本帧语音信号的特征参数，将该特征参数输入到第一个简化注意力编解码网络中，得到针对本帧参考通道语音信号的滤波器参数；

第t帧、第k个声源对应的滤波器参数的计算公式为：

其中表示第一个简化注意力编解码网络，针对每一时刻输入的维度为2L+1+K_U的特征，经过其中的时序卷积与维度变换，输出K个维度为K_U的向量K表示声源个数；⊙表示两个维度相同的向量或矩阵逐元素相乘；是简化注意力编解码网络的系数，为偏置；tanh()为双曲正切运算，σ()为Sigmoid函数。

3.根据权利要求2所述的基于简化注意力编解码网络的滤波求和多通道语音分离方法，其特征在于，步骤2中得到各声源的预分离语音信号的计算公式为：

其中表示从参考通道信号中滤波得到的第t帧、第k个声源的预分离信号。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】