[发明专利]流式传输序列模型的一致预测在审
申请号: | 202180017862.3 | 申请日: | 2021-02-08 |
公开(公告)号: | CN115210809A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 陈哲怀;安德鲁·罗森伯格;布瓦那·拉马巴德兰;佩德罗·J·莫雷诺门吉巴尔 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L13/02;G10L15/16 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李佳;周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 传输 序列 模型 一致 预测 | ||
1.一种计算机实现的方法(600),所述方法(600)在由数据处理硬件(710)执行时使所述数据处理硬件(710)执行操作,所述操作包括:
接收训练话语对(302)的集合,每个训练话语对(302)包括:
对应话语的非合成语音表示(304);以及
所述对应话语的合成语音表示(306);
在所述训练话语对(302)的集合中的每个训练话语对(302)的多个输出步中的每个输出步处:
生成所述对应话语的对应非合成语音表示(304)的可能非合成语音识别假设上的第一概率分布(311),以用于由语音识别模型(200)输出;
生成所述对应话语的对应合成语音表示(306)的可能合成语音识别假设上的第二概率分布(312),以用于由所述语音识别模型(200)输出;以及
基于可能非合成语音识别假设上的所述第一概率分布(311)和可能非合成语音识别假设上的所述第二概率分布(312)来确定所述对应训练话语对(302)的一致损失项(352);以及
基于在所述训练话语对(302)的集合中的每个训练话语对(302)的所述多个输出步中的每个输出步处所确定的所述一致损失项(352),来更新所述语音识别模型(200)的参数。
2.根据权利要求1所述的方法(600),其中,所述操作进一步包括,在所述训练话语对(302)的集合中的每个训练话语对(302)的所述多个输出步中的每个输出步处:
基于所述对应话语的所述对应非合成语音表示(304)的可能非合成语音识别假设上的所述第一概率分布(311)和所述对应话语的真实转录(120)来生成非合成语音损失项(342);以及
基于所述对应话语的所述对应合成语音表示(306)的可能合成语音识别假设上的所述第二概率分布(312)和所述对应话语的所述真实转录(120)来生成合成语音损失项(344)。
3.根据权利要求2所述的方法(600),其中,所述语音识别模型(200)的所述参数是基于所述一致损失项(352)来更新的,所述一致损失项(352)是不依赖于在所述训练话语对(302)的集合中的每个训练话语对(302)的所述多个输出步中的每个输出步处所生成的所述非合成语音损失项和所述合成语音损失项(342、344)而在所述训练话语对(302)的集合中的每个训练话语对(302)的所述多个输出步中的每个输出步处被确定的。
4.根据权利要求1至3中的任一项所述的方法(600),其中,每个训练话语对(302)中的所述合成语音表示(306)包括表示所述对应话语的已合成语音。
5.根据权利要求1至4中的任一项所述的方法(600),其中,所述操作进一步包括:针对每个训练话语对(302),使用文本到语音TTS模型(330)转换所述对应话语的真实转录(120)以生成所述对应合成语音表示(306)。
6.根据权利要求1至5中的任一项所述的方法(600),其中,所述操作进一步包括:针对至少一个训练话语对(302),将数据增强应用于所述对应非合成语音表示(304)或者所述对应合成语音表示(306)中的至少一个。
7.根据权利要求6所述的方法(600),其中,所应用的数据增强包括添加噪声、添加混响或操纵定时中的至少一个。
8.根据权利要求1至7中的任一项所述的方法(600),其中,确定所述对应训练话语对(302)的所述一致损失项(352)是基于可能非合成语音识别假设上的所述第一概率分布(311)和可能非合成语音识别假设上的所述第二概率分布(312)之间的Kullback-Leibler散度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180017862.3/1.html,转载请声明来源钻瓜专利网。