[发明专利]流式传输序列模型的一致预测在审

申请号：	202180017862.3	申请日：	2021-02-08
公开（公告）号：	CN115210809A	公开（公告）日：	2022-10-18
发明（设计）人：	陈哲怀;安德鲁·罗森伯格;布瓦那·拉马巴德兰;佩德罗·J·莫雷诺门吉巴尔	申请（专利权）人：	谷歌有限责任公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L13/02;G10L15/16
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	李佳;周亚荣
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	传输序列模型一致预测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种计算机实现的方法(600)，所述方法(600)在由数据处理硬件(710)执行时使所述数据处理硬件(710)执行操作，所述操作包括：

接收训练话语对(302)的集合，每个训练话语对(302)包括：

对应话语的非合成语音表示(304)；以及

所述对应话语的合成语音表示(306)；

在所述训练话语对(302)的集合中的每个训练话语对(302)的多个输出步中的每个输出步处：

生成所述对应话语的对应非合成语音表示(304)的可能非合成语音识别假设上的第一概率分布(311)，以用于由语音识别模型(200)输出；

生成所述对应话语的对应合成语音表示(306)的可能合成语音识别假设上的第二概率分布(312)，以用于由所述语音识别模型(200)输出；以及

基于可能非合成语音识别假设上的所述第一概率分布(311)和可能非合成语音识别假设上的所述第二概率分布(312)来确定所述对应训练话语对(302)的一致损失项(352)；以及

基于在所述训练话语对(302)的集合中的每个训练话语对(302)的所述多个输出步中的每个输出步处所确定的所述一致损失项(352)，来更新所述语音识别模型(200)的参数。

2.根据权利要求1所述的方法(600)，其中，所述操作进一步包括，在所述训练话语对(302)的集合中的每个训练话语对(302)的所述多个输出步中的每个输出步处：

基于所述对应话语的所述对应非合成语音表示(304)的可能非合成语音识别假设上的所述第一概率分布(311)和所述对应话语的真实转录(120)来生成非合成语音损失项(342)；以及

基于所述对应话语的所述对应合成语音表示(306)的可能合成语音识别假设上的所述第二概率分布(312)和所述对应话语的所述真实转录(120)来生成合成语音损失项(344)。

3.根据权利要求2所述的方法(600)，其中，所述语音识别模型(200)的所述参数是基于所述一致损失项(352)来更新的，所述一致损失项(352)是不依赖于在所述训练话语对(302)的集合中的每个训练话语对(302)的所述多个输出步中的每个输出步处所生成的所述非合成语音损失项和所述合成语音损失项(342、344)而在所述训练话语对(302)的集合中的每个训练话语对(302)的所述多个输出步中的每个输出步处被确定的。

4.根据权利要求1至3中的任一项所述的方法(600)，其中，每个训练话语对(302)中的所述合成语音表示(306)包括表示所述对应话语的已合成语音。

5.根据权利要求1至4中的任一项所述的方法(600)，其中，所述操作进一步包括：针对每个训练话语对(302)，使用文本到语音TTS模型(330)转换所述对应话语的真实转录(120)以生成所述对应合成语音表示(306)。

6.根据权利要求1至5中的任一项所述的方法(600)，其中，所述操作进一步包括：针对至少一个训练话语对(302)，将数据增强应用于所述对应非合成语音表示(304)或者所述对应合成语音表示(306)中的至少一个。

7.根据权利要求6所述的方法(600)，其中，所应用的数据增强包括添加噪声、添加混响或操纵定时中的至少一个。

8.根据权利要求1至7中的任一项所述的方法(600)，其中，确定所述对应训练话语对(302)的所述一致损失项(352)是基于可能非合成语音识别假设上的所述第一概率分布(311)和可能非合成语音识别假设上的所述第二概率分布(312)之间的Kullback-Leibler散度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司，未经谷歌有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202180017862.3/1.html，转载请声明来源钻瓜专利网。

上一篇：载带处理装置及载带处理方法
下一篇：栽培辅助系统、栽培辅助装置、栽培辅助方法及程序

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]流式传输序列模型的一致预测在审

专利文献下载