[发明专利]通过机器学习的直接的语音到语音翻译在审
申请号: | 202080002715.4 | 申请日: | 2020-03-17 |
公开(公告)号: | CN112204653A | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 贾晔;Z.陈;Y.吴;M.约翰逊;F.比亚德西;R.韦斯;W.马彻雷 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L13/033 | 分类号: | G10L13/033;G10L13/04;G10L21/003 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 机器 学习 直接 语音 翻译 | ||
本公开提供训练和使用机器学习模型(诸如,例如,序列到序列模型)以执行直接且无文本的语音到语音翻译的系统和方法。特别地,本公开的方面提供一种基于注意力的序列到序列神经网络,其可以将语音从一种语言直接翻译成另一种语言的语音,而不依赖于中间文本表示。
相关申请
本申请要求享有美国临时专利申请第62/826,258号的优先权和权益,该美国临时专利申请通过引用全文合并于此。
技术领域
本公开总体上涉及机器学习。更具体地,本公开涉及通过机器学习模型(诸如,序列到序列模型)的直接且无文本的语音到语音翻译。
背景技术
语音到语音翻译(S2ST)是指将一种语言的语音(例如,由第一语音波形表示)翻译成另一种不同语言的语音(例如,由不同的第二语音波形表示)的过程。常规的S2ST系统依赖于组合多个不相干的系统以执行翻译的级联方法。特别地,常规的S2ST系统常被分为分开且依次运行的三个组成部分:自动语音识别(ASR)、文本到文本机器翻译(MT)和文本到语音(TTS)合成。
级联系统具有组成部分之间的复合误差的可能性,诸如,例如,当识别误差导致更大的翻译误差时。级联系统还具有其它缺点,主要在于增加的计算需求和更高的推断延迟,因为需要多个不同的计算步骤。此外,级联系统在翻译期间难以保留副语言和非语言信息,诸如,例如,在合成的翻译语音中保持源说话者的声音、语调、情绪和韵律。最后,级联系统无法学习生成不需要翻译的单词(诸如,名称或其它专有名词)的流畅发音。
发明内容
本公开的实施例的方面和优点将在以下描述中部分地阐述,或者可以从该描述获悉,或者可以通过实施例的实施而获悉。
本公开的一个示例方面针对一种计算系统。该计算系统包括一个或更多个处理器。该计算系统包括配置为执行直接且无文本的翻译的机器学习翻译模型。机器学习翻译模型包括编码器模型,该编码器模型配置为接收和处理一系列输入声学特征表示,以生成一系列隐藏状态表示,该一系列输入声学特征表示代表第一语言的第一语音。机器学习翻译模型包括注意力模型,该注意力模型配置为接收和处理一系列隐藏状态表示,以生成一系列注意力输出。机器学习翻译模型包括解码器模型,该解码器模型配置为接收和处理一系列注意力输出,以生成一系列输出声学特征表示,该一系列输出声学特征表示代表不同于第一语言的第二语言的第二语音。该计算系统包括共同存储指令的一种或更多种非暂时性计算机可读介质,所述指令当由所述一个或更多个处理器运行时使该计算系统执行操作。所述操作包括获得代表第一语言的第一语音的一系列输入声学特征表示。所述操作包括将一系列输入声学特征表示输入到机器学习翻译模型的编码器模型中。所述操作包括接收代表第二语言的第二语音的一系列输出声学特征表示作为解码器模型的输出。
所述操作还可以包括通过机器学习翻译模型反向传播损失函数以训练机器学习翻译模型。损失函数可以评估一系列输出声学特征表示中的每个与从第二语言的第二语音导出的对应的地面真值声学特征表示之间的相应差异。一个或更多个辅助语音识别模型可以配置为接收和处理来自编码器模型的信息,以预测与第一语言的第一语音或第二语言的第二语音相关联的文本内容的一项或更多项。所述操作还可以包括通过编码器模型的至少一部分反向传播分别与所述一个或更多个辅助语音识别模型相关联的一个或更多个辅助损失函数,以训练编码器模型的所述至少一部分。每个辅助损失函数评估由对应的辅助语音识别模型输出的文本内容的所述一项或更多项与和第一语言的第一语音或第二语言的第二语音相关联的文本内容的对应的地面真值项之间的相应差异。所述一个或更多个辅助语音识别模型可以包括一个或更多个第一语音识别模型,所述一个或更多个第一语音识别模型配置为接收和处理来自编码器模型的信息,以预测第一语言的第一语音中包括的音素、字素、单词或n元语法中的一个或更多个的文本表示。所述一个或更多个辅助语音识别模型可以包括一个或更多个第二语音识别模型,所述一个或更多个第二语音识别模型配置为接收和处理来自编码器模型的信息,以预测第二语言的第二语音中包括的音素、字素、单词或n元语法中的一个或更多个的文本表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080002715.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:发光装置及发光设备
- 下一篇:化合物及包含其的有机发光器件