[发明专利]流式传输序列模型的一致预测在审
申请号: | 202180017862.3 | 申请日: | 2021-02-08 |
公开(公告)号: | CN115210809A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 陈哲怀;安德鲁·罗森伯格;布瓦那·拉马巴德兰;佩德罗·J·莫雷诺门吉巴尔 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L13/02;G10L15/16 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李佳;周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 传输 序列 模型 一致 预测 | ||
一种用于训练语音识别模型(200)的方法(600)包括接收训练话语对(302)的集合,每个训练话语对(302)包括相同对应话语(106)的非合成语音表示(304)和合成语音表示(306)。该方法还包括基于针对对应非合成语音表示生成的可能非合成语音识别假设上的第一概率分布(311)和针对对应合成语音表示生成的可能合成语音识别假设上的第二概率分布(312),确定对应训练话语对的一致损失项(352)。生成第一和第二概率分布以用于由语音识别模型输出。该方法还包括基于一致损失项来更新语音识别模型的参数。
技术领域
本公开涉及流式传输序列模型的一致预测。
背景技术
自动语音识别(ASR),获取音频输入并将其转录为文本的过程,已成为在移动设备和其他设备中使用的重要技术。通常,自动语音识别试图通过获取音频输入(例如,语音话语)并将音频输入转录成文本来提供对人已经说的内容的准确转录。基于深度神经网络的持续发展,现代ASR模型在准确性(例如,低单词错误率(WER))和时延(例如,用户说话和转录之间的延迟)两个方面都继续提高。然而,开发基于深度学习的ASR模型的一个挑战是ASR模型的参数倾向于过度拟合训练数据,从而导致ASR模型在训练数据不够广泛时难以普遍化看不见的数据。因此,在更大的训练数据集上训练ASR模型改进了ASR模型的准确性。合成语音和/或数据增强语音能够被并入以增加被用于训练ASR模型的训练数据量。
发明内容
本公开的一个方面提供了计算机实现的方法,该方法当在数据处理硬件上被执行时使数据处理硬件执行操作。该操作包括接收训练话语对的集合,每个训练话语对包括对应话语的非合成语音表示和对应话语的合成语音表示。在训练话语对的集合中的每个训练话语对的多个输出步中的每个输出步处,操作还包括:生成对应话语的对应非合成语音表示的可能非合成语音识别假设上的第一概率分布,以用于由语音识别模型输出;生成对应话语的对应合成语音表示的可能合成语音识别假设上的第二概率分布,以用于由语音识别模型输出;以及基于可能非合成语音识别假设上的第一概率分布和可能非合成语音识别假设上的第二概率分布,确定对应训练话语对的一致损失项。该操作还包括基于在训练话语对的集合中的每个训练话语对的多个输出步中的每个输出步处确定的一致损失项,来更新语音识别模型的参数。
本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,操作进一步包括:在训练话语对的集合中的每个训练话语对的多个输出步中的每个输出步处,基于对应话语的对应非合成语音表示的可能非合成语音识别假设上的第一概率分布,生成非合成语音损失项,并且基于对应话语的对应合成语音表示的可能合成语音识别假设上的第二概率分布和对应话语的真实(ground-truth)事务,生成合成语音损失项。在一些示例中,基于一致损失项,更新语音识别模型的参数,所述一致损失项不依赖于在训练话语对的集合中的每个训练话语对的多个输出步中的每个输出步处生成的非合成和合成语音损失项而在训练话语对的集合中的每个训练话语对的多个输出步中的每个输出步处确定。
可选地,每个训练话语对中的合成语音表示可以包括表示对应话语的合成语音。在一些实施方式中,针对每个训练话语对,操作进一步包括:使用文本到语音(TTS)模型转换对应话语的真实转录以生成对应的合成语音表示。对于至少一个训练话语对,操作可以进一步包括将数据增强应用到对应的非合成语音表示或对应的合成语音表示中的至少。这里,所应用的数据增强可以包括添加噪声、添加混响或操纵定时中的至少一个。
在一些示例中,确定对应训练话语对的一致损失项是基于可能非合成语音识别假设上的第一概率分布和可能非合成语音识别假设上的第二概率分布之间的Kullback-Leibler散度。在这些示例中,在确定一致损失项或对应的训练话语对之前,并且当语音识别模型包括基于帧对准的变换器模型时,操作可以进一步包括:基于对应话语的真实转录的有效对准概率,针对在每个输出步处生成的可能非合成语音识别假设上的第一概率分布序列以及在每个输出步处生成的可能合成语音识别假设上的第二概率分布序列,定义有效对准分布。这里,有效对准分布在表示对应话语的真实转录的输出标签序列中的每个输出标签上被定义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180017862.3/2.html,转载请声明来源钻瓜专利网。