[发明专利]一种基于声纹特征的多人语音分离方法、设备及介质在审
申请号: | 202111004878.9 | 申请日: | 2021-08-30 |
公开(公告)号: | CN113990344A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 沈莹;程诗丹;周子怡;张林;赵生捷 | 申请(专利权)人: | 同济大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L17/02;G10L17/18;G10L25/03;G10L25/18;G10L25/24;G10L25/30 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 应小波 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 声纹 特征 人语 音分 方法 设备 介质 | ||
1.一种基于声纹特征的多人语音分离方法,其特征在于,该方法包括以下步骤:
步骤S1:声纹特征提取,包括获取目标说话人的声纹特征Xref以及对混合音频采用短时傅里叶变换提取其频谱特征Xmix;
步骤S2:声纹特征融合,通过拼接混合音频的频谱特征Xmix与目标说话人的声纹特征Xref得到参考声纹特征的频谱特征X′mix,并将频谱特征X′mix输入到用于捕获低级别音频特征的扩张卷积层,得到语音分离模型的输入特征Xinput;
步骤S3:语音分离,通过基于语音分离模型获取频谱掩膜,并将其与混合音频的频谱特征Xmix相乘,得到预测出的目标说话人的纯净音频的频谱;通过参考混合音频的相位谱并结合短时傅里叶逆变换,得到预测出的目标说话人在时域上的纯净音频。
2.根据权利要求1所述的一种基于声纹特征的多人语音分离方法,其特征在于,所述步骤S1中获取目标说话人的声纹特征Xref具体为:将目标说话人的参考音频输入至声纹特征提取器中,获取目标说话人的梅尔频率倒谱系数MFCCs,将其作为目标说话人的声纹特征Xref,具体包括以下步骤:
步骤S11:同时对目标说话人的参考音频和混合音频进行静音段修剪;
步骤S12:对去除静音段的参考音频和去除静音段的混合音频进行处理,以保证参考音频的长度与混合音频的长度一致;
步骤S13:从去除静音段的参考音频中提取梅尔频率倒谱系数MFCCs,取前P维作为目标说话人的声纹特征Xref。
3.根据权利要求2所述的一种基于声纹特征的多人语音分离方法,其特征在于,所述步骤S12为:若去除静音段的参考音频的长度小于去除静音段的混合音频的长度,则对参考音频进行循环拼接;若去除静音段的参考音频的长度大于去除静音段的混合音频的长度,则对参考音频进行修剪,以保证参考音频的长度与混合音频的长度一致;其中所述静音段为低于20db的语音段。
4.根据权利要求1所述的一种基于声纹特征的多人语音分离方法,其特征在于,所述步骤S1中对混合音频采用短时傅里叶变换提取混合音频的频谱特征Xmix具体包括以下步骤:
步骤S14:使用窗口大小为256、帧移为64对去除静音段的混合音频进行短时傅里叶变换,同时得到混合音频的幅度谱和相位谱;
步骤S15:使用幅度谱作为混合音频的频谱特征Xmix;而相位谱则用作恢复分离模型预测目标说话人纯净音频时所使用的相位谱。
5.根据权利要求1所述的一种基于声纹特征的多人语音分离方法,其特征在于,所述步骤S2中的扩张卷积层包括卷积神经网络CNN。
6.根据权利要求1所述的一种基于声纹特征的多人语音分离方法,其特征在于,所述语音模型获取频谱掩膜的过程具体为:使用深度聚类模型DPCL基于输入特征Xinput得到嵌入向量,采用K-Means算法对得到的嵌入向量进行聚类获取频谱掩膜。
7.根据权利要求6所述的一种基于声纹特征的多人语音分离方法,其特征在于,所述频谱掩膜为二进制频谱掩膜,即每个频谱图中的每个时频箱仅属于一个说话人。
8.根据权利要求6所述的一种基于声纹特征的多人语音分离方法,其特征在于,所述深度聚类模型DPCL包括双向长短时记忆网络BiLSTM。
9.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~8所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~8中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111004878.9/1.html,转载请声明来源钻瓜专利网。