[发明专利]音频处理方法及装置、终端及存储介质有效
申请号: | 202110309769.1 | 申请日: | 2021-03-23 |
公开(公告)号: | CN113113044B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 徐娜;王林章;贾永涛 | 申请(专利权)人: | 北京小米松果电子有限公司;昆山杜克大学 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/51;G10L21/0272 |
代理公司: | 北京善任知识产权代理有限公司 11650 | 代理人: | 张振伟 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 处理 方法 装置 终端 存储 介质 | ||
本公开是关于一种音频处理方法及装置、终端及存储介质。该方法包括:确定目标对象的第一声纹特征;对混合音频进行预分离处理,获得多路语音信号;根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频。通过该方法,能提升语音分离的准确度。
技术领域
本公开涉及电子技术领域,尤其涉及一种音频处理方法及装置、终端及存储介质。
背景技术
语音分离的目标是从多个混合的说话人中将每个目标说话人的语音信号给分离出来。传统的语音分离方法主要以基于独立分量分析的盲分离技术为主,近年来基于深度学习的语音分离技术逐渐成为语音分离中的主流趋势,在其训练过程中多以某一语音特征作为网络输入来进行训练,使模型具备区分不同说话人的能力。然而,上述方案均难以获得较好的语音分离效果。
发明内容
本公开提供一种音频处理方法及装置、终端及存储介质。
根据本公开实施例的第一方面,提供一种音频处理方法,包括:
确定目标对象的第一声纹特征;
对混合音频进行预分离处理,获得多路语音信号;
根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频。
在一些实施例中,所述根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频,包括:
确定所述多路语音信号中各语音信号的第二声纹特征;
将各所述语音信号的第二声纹特征以及所述第一声纹特征进行拼接,获得第三声纹特征;
将所述第三声纹特征输入预定的语音分离网络模型,确定所述混合音频中与所述目标对象匹配的目标音频。
在一些实施例中,所述将所述第三声纹特征输入预定的语音分离网络模型,确定所述混合音频中与所述目标对象匹配的目标音频,包括:
将所述第三声纹特征输入所述预定的语音分离网络模型的各子模块,得到各子模块的输出结果;
根据所述各子模块的输出结果串联的总输出结果,确定所述混合音频中与所述目标对象匹配的目标音频。
在一些实施例中,所述子模块包括:多层长短期记忆网络LSTM和全连接层。
在一些实施例中,所述确定目标对象的第一声纹特征,包括:
获取所述目标对象的音频信号;
根据所述音频信号的频谱,提取所述目标对象的第一声纹特征。
在一些实施例中,所述根据所述音频信号的频谱,提取所述目标对象的第一声纹特征,包括:
将所述音频信号的频谱输入预定的声纹提取网络模型,获取所述目标对象的第一声纹特征。
在一些实施例中,所述声纹提取网络模型包括:
残差网络RESNET;
至少一层池化层,与所述RESNET连接;
全连接层,与所述池化层连接。
在一些实施例中,所述对混合音频进行预分离处理,获得多路语音信号,包括:
对所述混合音频采用独立向量分析IVA方式进行预分离处理,获得所述多路语音信号。
在一些实施例中,所述混合音频是语音通话过程中采集到的;
所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米松果电子有限公司;昆山杜克大学,未经北京小米松果电子有限公司;昆山杜克大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110309769.1/2.html,转载请声明来源钻瓜专利网。