[发明专利]基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法在审
申请号: | 202211413063.0 | 申请日: | 2022-11-11 |
公开(公告)号: | CN115713943A | 公开(公告)日: | 2023-02-24 |
发明(设计)人: | 邓宇汐;周琳;程云苓;王启瑞;许越;曹焱翔;庄程浩 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0216;G10L21/0264;G10L21/0272;G10L25/30 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 沈廉 |
地址: | 211102 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 空间 心高 混合 模型 双向 短时记忆 网络 波束 成形 语音 分离 方法 | ||
1.一种基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,其特征在于,该方法包括以下步骤:
步骤1、包含噪声和混响的多通道训练语音信号,通过分帧、加窗、短时傅里叶变换、取对数运算和去混响预处理后,计算参考通道训练语音信号的对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦与余弦值;
步骤2、利用步骤1计算的参考通道训练语音信号的对数功率谱,基于期望最大化迭代算法,得到训练语音信号基于复空间角中心高斯混合聚类模型参数,估计各目标声源在参考通道训练语音信号中的掩蔽值;
步骤3、将步骤1计算的参考通道训练语音信号的对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦与余弦值,作为双向长短时记忆网络的输入特征,将步骤2中各目标声源在参考通道训练语音信号的掩蔽值作为双向长短时记忆网络的训练目标,基于均方误差损失函数训练双向长短时记忆网络;
步骤4、包含噪声和混响的多通道测试语音信号,通过分帧、加窗、短时傅里叶变换、取对数运算和去混响预处理后,计算参考通道测试语音信号的对数功率谱、参考通道测试语音信号与其余通道测试语音信号之间相位差的正弦与余弦值,同时短时傅里叶变换得到多通道测试语音信号的相位谱;
步骤5、将步骤4中参考通道测试语音信号的对数功率谱、参考通道测试语音信号与其余通道测试语音信号之间相位差的正弦与余弦值,作为步骤3训练得到的双向长短时记忆网络的输入特征,输出各目标声源在参考通道测试语音信号中的掩蔽值;
步骤6、根据步骤5中双向长短时记忆网络输出的掩蔽值,以及步骤4的多通道测试语音信号,计算多通道测试语音信号的协方差矩阵,基于给定目标声源在波束形成器输出处的预期信噪比增益最大化准则,得到各目标声源的波束成形器系数;波束成形器与多通道测试语音信号卷积后,结合步骤4中多通道测试语音数据的相位谱,得到分离后的目标语音信号频谱,经过短时傅里叶逆变换,得到目标语音信号的时域波形。
2.根据权利要求1所述的基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,其特征在于,步骤1和步骤4中的去混响预处理采用了带权重预测误差去混响预处理;多通道数据通过分帧、加窗、短时傅里叶变换、取对数运算后,基于带权重预测误差去混响算法,得到纯净语音的最大似然估计,去除信号中的混响成分。
3.根据权利要求1所述的基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,其特征在于,步骤2中基于复空间角中心高斯混合聚类模型对训练语音信号进行建模,计算参考通道训练语音信号中各目标声源信号的掩蔽值;复空间角中心高斯混合模型的概率密度函数表示式为:
其中,是复空间角中心高斯混合聚类模型参数,为多通道训练语音信号的短时傅里叶变换,||||为二范数运算,k表示的是第k个声源,取值范围为[1,K],K为声源数目,为复空间角中心高斯分布,其表达式为:
其中,det()为矩阵的行列式运算,M为通道数目,!表示阶乘运算,H表示转置运算。
4.根据权利要求1所述的基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,其特征在于,步骤3中将基于复空间角中心高斯混合聚类模型计算的掩蔽值和双向长短时记忆网络输出的掩蔽估计值之间的均方误差作为损失函数训练双向长短时记忆网络:
其中,训练数据在双向长短时网络输出的第t帧、f频点上的第k个声源的掩蔽估计值,是训练数据基于复空间角中心高斯混合聚类模型参数计算的第k个声源掩蔽值。
5.根据权利要求1所述的基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,其特征在于,步骤6中基于给定目标声源在波束形成器输出处的预期信噪比增益最大化为准则,得到每个声源的波束成形系数具体包括以下步骤:
在计算某个目标声源i时,将其它声源视为噪声,对于每一个时频点,使用时域平均代替统计平均,得到目标声源i的协方差矩阵和噪声协方差矩阵的计算公式:
其中,Ttest是计算协方差阵使用的测试数据帧数,为多通道测试语音信号的短时傅里叶变换,H为矩阵转置,是测试数据在双向长短时记忆网络输出的第t帧、f频点上第i个声源的掩蔽估计值,i,k的取值范围为[1,K],K为声源数目;
广义特征值分解波束形成器,使得给定目标声源在波束形成器输出处的预期信噪比增益最大化,进而得到目标声源i的波束成形器系数
根据第i个目标声源的波束成形器系数得到第i个目标声源时频谱的计算公式:
其中,H表示转置运算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211413063.0/1.html,转载请声明来源钻瓜专利网。