[发明专利]用于讲话者无关的多讲话者语音分离的置换不变训练有效
申请号: | 201780030696.4 | 申请日: | 2017-05-06 |
公开(公告)号: | CN109313910B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 俞栋 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 讲话 无关 语音 分离 置换 不变 训练 | ||
1.一种从具有音频源信号和噪声源信号的第一混合信号分离两个或更多个源信号的方法,所述方法包括:
从第二混合信号生成输出层,所述输出层是所述第二混合信号中的音频源信号的估计;
生成多个标签,其中所述多个标签的总数目等于所述输出层的总数目;
迭代地将所述多个标签分配给所述输出层以用于标签和输出层的可能组合,以创建一组可能分配,所述一组可能分配中的每个可能分配与标签和输出层的组合相对应;
获得多个空间滤波信号,其中空间滤波信号的总数目等于所述多个标签的所述总数目;
确定针对所述一组可能分配中的每个可能分配的分配误差分数,至少部分地基于针对相应的可能分配的相应的输出层的多个标签中的标签与所述多个空间滤波信号之间的差来确定所述分配误差分数;
确定要分配给所述输出层的标签的分配顺序,个体标签与个体音频源信号相关联,并且所述分配顺序至少部分地基于个体输出层和所述个体音频源信号之间的最小总偏差分数,其中所述最小总偏差分数是所述分配误差分数中的最低分配误差分数;
通过迭代地优化模型的模型参数来生成一组掩码,以最小化所确定的所述分配顺序的所述最小总偏差分数;以及
通过使用所述一组掩码从所述第一混合信号生成所述两个或更多个音频源信号,所述两个或更多个音频源信号的所述源与所述第二混合信号中的所述音频源信号的源不同。
2.根据权利要求1所述的方法,其中确定所述标签的所述分配顺序包括:
计算所述个体输出层和所述音频源信号之间的一组成对偏差;
计算针对可能的分配顺序的总偏差分数,针对可能的分配顺序的总偏差分数包括所述个体输出层和根据所述可能的分配顺序与所述个体输出层相对应的所述个体音频源信号的相应对之间的所述成对偏差的总和;以及
至少部分地基于与所述分配顺序相关联的总偏差分数是所述总偏差分数中的最小总偏差分数,从所述可能的分配顺序中选择所述分配顺序。
3.根据权利要求2所述的方法,针对分配顺序的所述总偏差分数包括个体输出源和根据所述分配顺序与个体输出音频源相关联的所述个体音频源信号之间的总均方误差。
4.根据权利要求1所述的方法,其中将个体标签分配给个体输出层将所述个体输出层归因于所述音频源信号的个体音频源信号的源。
5.根据权利要求1所述的方法,其中所述模型使用所述混合信号的两帧或更多帧或者所述第二混合信号的特征信号的两帧或更多帧来获得所述输出层。
6.根据权利要求1所述的方法,还包括:
将所述第二混合信号的当前窗口移位一帧或多帧以获得相邻窗口,其中所述相邻窗口和所述当前窗口具有重叠帧;以及
至少部分地基于所述分配顺序与最小总偏差分数相关联来选择针对所述相邻窗口的分配顺序。
7.根据权利要求1所述的方法,还包括:
选择针对所述第二混合信号、输出层和音频源信号的多个窗口的分配顺序;
记录针对所述多个窗口的所述分配顺序;以及
至少部分地基于针对所述多个窗口的分配顺序的记录,追踪所述第二混合信号的多个帧中的可归因于信号产生音频源的源信号。
8.根据权利要求7所述的方法,其中追踪可归因于信号产生音频源的所述音频源信号包括:
标识被包括在具有通过相应的分配顺序与所述音频源信号相关联的中心帧的窗口中的所述第二混合信号的所述多个帧中的帧的子集。
9.根据权利要求8所述的方法,还包括:
获得与所述输出层的第一元帧相关联的第一最小总偏差;
获得与所述输出层的第二元帧相关联的第二最小总偏差;
计算所述输出层的嵌入的相似度分数;以及
至少部分地基于所述第一最小总偏差或者所述第二最小总偏差和所述相似度分数来确定针对所述第一元帧或者所述第一元帧的中心帧的分配顺序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780030696.4/1.html,转载请声明来源钻瓜专利网。