[发明专利]语音分离方法和系统、电子设备及可读存储介质有效
申请号: | 202110587646.4 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113393858B | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 陈孝良;李智勇 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L25/27 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 蒋娟 |
地址: | 100094 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 分离 方法 系统 电子设备 可读 存储 介质 | ||
1.一种语音分离方法,其特征在于,包括:
对输入的多通道语音进行特征提取,得到语音特征;
将所述语音特征和波束集合分别输入到语音分离模型,得到分离后的语音,所述波束集合包括基于麦克风阵列确定的若干个第一波束系数;
其中,所述语音分离模型是基于混合语音样本数据、所述波束集合以及预先确定的干净语音标签进行训练后得到;
所述语音分离模型采用以下损失函数进行训练:
其中,所述最小均方误差函数,表示目标语音的Mask,数值介于[0,1],,表示由混合语音样本数据计算得到的样本Mask,尺度不变的信噪比函数,表示分离后的语音,表示预先确定的干净语音标签。
2.根据权利要求1所述的语音分离方法,其特征在于,所述语音分离模型包括分离子模型和注意力选择机制子模型;
所述将所述语音特征和波束集合分别输入到语音分离模型,得到分离后的语音,包括:
将所述语音特征输入到分离子模型,得到目标语音的Mask;
将波束集合和所述目标语音的Mask分别输入到注意力选择机制子模型,得到融合后的第二波束系数;
基于所述语音特征和所述第二波束系数,得到分离后的语音;
其中,所述分离子模型是基于混合语音样本数据以及所述目标语音的Mask进行训练后得到;所述注意力选择机制子模型是基于所述分离后的语音、所述波束集合以及预先确定的干净语音标签进行训练后得到。
3.根据权利要求2所述的语音分离方法,其特征在于,所述注意力选择机制子模型包括第一映射层和第二映射层;
所述将波束集合和所述目标语音的Mask分别输入到注意力选择机制子模型,得到融合后的第二波束系数,包括:
将所述目标语音的Mask输入到所述第一映射层,得到映射后的Mask;
将所述波束集合输入到所述第二映射层,得到若干个映射后的第一波束系数,其中每一个映射后的第一波束系数与映射后的Mask在同一维度;
基于每一个映射后的第一波束系数和映射后的Mask,进行多类别分类,并基于所得到的各个映射后的第一波束系数的概率值及其所对应的所述若干个第一波束系数,得到融合后的第二波束系数。
4.根据权利要求3所述的语音分离方法,其特征在于,所述进行多类别分类包括:
按照每一个映射后的第一波束系数作为一个类别进行分类,各个映射后的第一波束系数类别值的概率和为1。
5.根据权利要求1所述的语音分离方法,其特征在于,所述将所述语音特征和波束集合分别输入到语音分离模型,得到分离后的语音之后,还包括:
对所述分离后的语音进行滤波处理,得到目标语音。
6.一种语音分离系统,其特征在于,包括;
语音特征提取模块,用于对输入的多通道语音进行特征提取,得到语音特征;
语音分离模块,用于将所述语音特征和波束集合分别输入到语音分离模型,得到分离后的语音,所述波束集合包括基于麦克风阵列确定的若干个第一波束系数;
其中,所述语音分离模型是基于混合语音样本数据、所述波束集合以及预先确定的干净语音标签进行训练后得到;
所述语音分离模型采用以下损失函数进行训练:
其中,所述最小均方误差函数,表示目标语音的Mask,数值介于[0,1],,表示由混合语音样本数据计算得到的样本Mask,尺度不变的信噪比函数,表示分离后的语音,表示预先确定的干净语音标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110587646.4/1.html,转载请声明来源钻瓜专利网。