[发明专利]用于讲话者无关的多讲话者语音分离的置换不变训练有效
申请号: | 201780030696.4 | 申请日: | 2017-05-06 |
公开(公告)号: | CN109313910B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 俞栋 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 讲话 无关 语音 分离 置换 不变 训练 | ||
本文描述的技术改进了使计算设备能够在与讲话者无关的多讲话者场景中进行自动语音识别(“ASR”)的方法。在一些示例中,深度学习模型的置换不变训练可以用于与讲话者无关的多个讲话者场景。在一些示例中,该技术可以确定模型对源信号的估计与源信号之间的置换考虑的分配。在一些示例中,该技术可以包括训练生成估计的模型以最小化置换考虑的分配的偏差。这些技术可以实现为神经网络的结构本身,解决了标签置换问题,标签置换问题阻碍了基于深度学习的语音分离技术的进步。这里讨论的技术还可以包括源追踪以在混合信号的帧中追踪源自相同源的流。
背景技术
近年来,由于在最近的ASR系统中利用的深度学习技术,自动语音识别(“ASR”)系统的准确性得到显着改善。2010年,广泛接受的Switchboard会话转录基准任务的单词错误率(WER)超过20%,2016年,由于深度学习的发展,它已降至7%以下。
尽管在指示单个说话者语音方面已经取得了令人印象深刻的进步,但是多讲话者混合语音分离、追踪和识别的ASR的进步(通常被称为鸡尾酒会问题)已经不那么令人印象深刻了。尽管人类听众可以容易地感知声学混合物中的单独源,但是对于自动计算系统来说同样的任务似乎是困难的,尤其是当仅有混合语音的单通道可用时。
当前的解决方案受限于仅用于闭集讲话者,不能随着增加的说话者或词汇量而扩展;只分离高度不同的信号(例如,将音乐与讲话者分开)而不是分离类似信号(诸如多个讲话者)的更困难的任务;依赖于取决于讲话者的模型,这些模型需要在训练时标识讲话者并从讲话者那里收集数据,从而导致有限的词汇、语法和讲话者集合;假设时频区间(bins)仅属于一个扬声器;或者具有不可共同训练的部分,因此限制了系统性能。
发明内容
提供本发明内容是为了介绍与用于讲话者无关的多讲话者语音分离的置换不变训练有关的简化概念。本发明内容不旨在标识所要求保护的户数方案的必要特征,也不旨在用于确定所要求保护的技术方案的范围。
本文描述的技术使计算设备能够在与讲话者无关的多个讲话者场景中进行自动语音识别(“ASR”),这意味着这些技术能够检测混合信号的部分并将其归因于多个讲话者中对该混合信号有贡献的讲话者。无论这些技术之前是否先前已接收过与讲话者有关的数据,无论是在训练中还是在评估的早期。换句话说,这里描述的技术使得ASR能够用于多个讲话者,并且即使在语音重叠时,甚至当讲话者从信号中消失或者先前未遇到的讲话者出现时也是如此。通过本文讨论的技术启用计算设备的场景的示例包括自动会议和讲座转录;音频/视频录制的自动字幕;多方人机交互(例如,在物联网(IoT)世界中),其中通常观察到语音重叠;等。这对于信号增强技术(诸如,例如,智能助听器可以将特定信号从混合物隔离并增强、削减或以其他方式修改特定信号)、信号检测和增强、现场音频制作等等也很重要。
在一些示例中,本文讨论的技术包括深度学习模型的置换不变训练。这里讨论的技术克服了先前尝试解决标签模糊或标签置换问题的缺点和局限性。例如,先前的尝试通常在每个时间频率上利用在平行组的混合物上训练的深度学习模型及其组成目标源来预测属于目标类的源。这些先前的尝试将讲话者与多个讲话者隔离的方式受到严重限制,因为他们依赖于讲话者相关的模型,假设在训练时间期间讲话者是已知的,这导致在评估时间闭集目标说话者并且通常仅对有限的词汇和语法起作用。先前的尝试也基于信号的瞬时能量来分配标签,这是有问题的,因为如果讲话者移动到不同的位置,如果讲话者面向的方向改变,或者如果讲话者讲话更大声或更温和,则讲话者的瞬时能量可以改变。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780030696.4/2.html,转载请声明来源钻瓜专利网。