首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]用于讲话者无关的多讲话者语音分离的置换不变训练有效

申请号：	201780030696.4	申请日：	2017-05-06
公开（公告）号：	CN109313910B	公开（公告）日：	2023-08-29
发明（设计）人：	俞栋	申请（专利权）人：	微软技术许可有限责任公司
主分类号：	G10L21/0272	分类号：	G10L21/0272
代理公司：	北京市金杜律师事务所 11256	代理人：	酆迅
地址：	美国华***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于讲话无关语音分离置换不变训练
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种从具有音频源信号和噪声源信号的第一混合信号分离两个或更多个源信号的方法，所述方法包括：

从第二混合信号生成输出层，所述输出层是所述第二混合信号中的音频源信号的估计；

生成多个标签，其中所述多个标签的总数目等于所述输出层的总数目；

迭代地将所述多个标签分配给所述输出层以用于标签和输出层的可能组合，以创建一组可能分配，所述一组可能分配中的每个可能分配与标签和输出层的组合相对应；

获得多个空间滤波信号，其中空间滤波信号的总数目等于所述多个标签的所述总数目；

确定针对所述一组可能分配中的每个可能分配的分配误差分数，至少部分地基于针对相应的可能分配的相应的输出层的多个标签中的标签与所述多个空间滤波信号之间的差来确定所述分配误差分数；

确定要分配给所述输出层的标签的分配顺序，个体标签与个体音频源信号相关联，并且所述分配顺序至少部分地基于个体输出层和所述个体音频源信号之间的最小总偏差分数，其中所述最小总偏差分数是所述分配误差分数中的最低分配误差分数；

通过迭代地优化模型的模型参数来生成一组掩码，以最小化所确定的所述分配顺序的所述最小总偏差分数；以及

通过使用所述一组掩码从所述第一混合信号生成所述两个或更多个音频源信号，所述两个或更多个音频源信号的所述源与所述第二混合信号中的所述音频源信号的源不同。

2.根据权利要求1所述的方法，其中确定所述标签的所述分配顺序包括：

计算所述个体输出层和所述音频源信号之间的一组成对偏差；

计算针对可能的分配顺序的总偏差分数，针对可能的分配顺序的总偏差分数包括所述个体输出层和根据所述可能的分配顺序与所述个体输出层相对应的所述个体音频源信号的相应对之间的所述成对偏差的总和；以及

至少部分地基于与所述分配顺序相关联的总偏差分数是所述总偏差分数中的最小总偏差分数，从所述可能的分配顺序中选择所述分配顺序。

3.根据权利要求2所述的方法，针对分配顺序的所述总偏差分数包括个体输出源和根据所述分配顺序与个体输出音频源相关联的所述个体音频源信号之间的总均方误差。

4.根据权利要求1所述的方法，其中将个体标签分配给个体输出层将所述个体输出层归因于所述音频源信号的个体音频源信号的源。

5.根据权利要求1所述的方法，其中所述模型使用所述混合信号的两帧或更多帧或者所述第二混合信号的特征信号的两帧或更多帧来获得所述输出层。

6.根据权利要求1所述的方法，还包括：

将所述第二混合信号的当前窗口移位一帧或多帧以获得相邻窗口，其中所述相邻窗口和所述当前窗口具有重叠帧；以及

至少部分地基于所述分配顺序与最小总偏差分数相关联来选择针对所述相邻窗口的分配顺序。

7.根据权利要求1所述的方法，还包括：

选择针对所述第二混合信号、输出层和音频源信号的多个窗口的分配顺序；

记录针对所述多个窗口的所述分配顺序；以及

至少部分地基于针对所述多个窗口的分配顺序的记录，追踪所述第二混合信号的多个帧中的可归因于信号产生音频源的源信号。

8.根据权利要求7所述的方法，其中追踪可归因于信号产生音频源的所述音频源信号包括：

标识被包括在具有通过相应的分配顺序与所述音频源信号相关联的中心帧的窗口中的所述第二混合信号的所述多个帧中的帧的子集。

9.根据权利要求8所述的方法，还包括：

获得与所述输出层的第一元帧相关联的第一最小总偏差；

获得与所述输出层的第二元帧相关联的第二最小总偏差；

计算所述输出层的嵌入的相似度分数；以及

至少部分地基于所述第一最小总偏差或者所述第二最小总偏差和所述相似度分数来确定针对所述第一元帧或者所述第一元帧的中心帧的分配顺序。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司，未经微软技术许可有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201780030696.4/1.html，转载请声明来源钻瓜专利网。

上一篇：评估麦克风阵列一致性的方法、设备、装置和系统
下一篇：沉浸式显示设备上的自动音频衰减

同类专利

专利分类

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top