[发明专利]语音分离方法和系统、电子设备及可读存储介质有效
申请号: | 202110587646.4 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113393858B | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 陈孝良;李智勇 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L25/27 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 蒋娟 |
地址: | 100094 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 分离 方法 系统 电子设备 可读 存储 介质 | ||
本申请实施例提供一种语音分离方法和系统、电子设备及可读存储介质,其中该方法包括:对输入的多通道语音进行特征提取,得到语音特征;将语音特征和波束集合分别输入到语音分离模型,得到分离后的语音,波束集合包括基于麦克风阵列确定的若干个第一波束系数;其中,语音分离模型是基于混合语音样本数据、波束集合以及预先确定的干净语音标签进行训练后得到。本申请实施例通过对输入的多通道语音进行特征提取,再将语音特征和波束集合分别输入到经过训练后的语音分离模型,得到分离后的语音,训练过程中对第一波束系数进行优化,利用优化后的波束系数以提高性能,可以有效地提高语音分离的效果,保证分离后的语音的质量。
技术领域
本申请涉及语音分离领域,尤其涉及一种语音分离方法和系统、电子设备及可读存储介质。
背景技术
在实际的应用场景中,由于麦克风中的信号可能包含目标讲话人的声音,其他人讲话的声音,噪声和混响等干扰,不采用语音分离技术的话,会影响后期语音识别或者唤醒的准确率。因此利用语音分离技术,将目标讲话人的信号从麦克风采集到的信号中分离出来,就可以提升语音识别或唤醒系统的鲁棒性。
目前,语音分离技术存在语音分离效果不佳、分离后的语音质量较差的问题。相关技术中一般都是采用提取所述目标讲话人的声纹信息或者其他特征信息,连续净化混合语音,以获取分离语音,上述方法仍存在语音分离效果不佳的技术问题。
发明内容
本申请提供一种语音分离方法和系统、电子设备及可读存储介质,用以解决现有技术中存在的技术缺陷。
本申请提供一种语音分离方法,包括:
对输入的多通道语音进行特征提取,得到语音特征;
将所述语音特征和波束集合分别输入到语音分离模型,得到分离后的语音,所述波束集合包括基于麦克风阵列确定的若干个第一波束系数;
其中,所述语音分离模型是基于混合语音样本数据、所述波束集合以及预先确定的干净语音标签进行训练后得到。
根据本申请实施例所述的语音分离方法,所述语音分离模型包括分离子模型和注意力选择机制子模型,相应地,所述将所述语音特征和波束集合分别输入到语音分离模型,得到分离后的语音包括:
将所述语音特征输入到分离子模型,得到目标语音的Mask;
将波束集合和所述目标语音的Mask分别输入到注意力选择机制子模型,得到融合后的第二波束系数;
基于所述语音特征和所述第二波束系数,得到分离后的语音;
其中,所述分离子模型是基于混合语音样本数据以及所述目标语音的Mask进行训练后得到;所述注意力选择机制子模型是基于所述分离后的语音、所述波束集合以及预先确定的干净语音标签进行训练后得到。
根据本申请实施例所述的语音分离方法,所述注意力选择机制子模型包括第一映射层和第二映射层,相应地,所述将波束集合和所述目标语音的Mask分别输入到注意力选择机制子模型,得到融合后的第二波束系数包括:
将所述目标语音的Mask输入到所述第一映射层,得到映射后的Mask;
将所述波束集合输入到所述第二映射层,得到若干个映射后的第一波束系数,每一个映射后的第一波束系数与映射后的Mask在同一维度;
基于每一个映射后的第一波束系数和映射后的Mask,进行多类别分类,并基于所得到的各个映射后的第一波束系数的概率值及其所对应的所述若干个第一波束系数,得到融合后的第二波束系数。
根据本申请实施例所述的语音分离方法,所述进行多类别分类包括:
按照每一个映射后的第一波束系数作为一个类别进行分类,各个映射后的第一波束系数类别值的概率和为1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110587646.4/2.html,转载请声明来源钻瓜专利网。