[发明专利]用于语音识别训练和评分的音译在审
申请号: | 201980082043.X | 申请日: | 2019-02-08 |
公开(公告)号: | CN113396455A | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 布瓦那·拉马巴德兰;马敏;佩德罗·J·莫雷诺·门吉巴尔;杰西·埃蒙德;布赖恩·E·罗克 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 邓聪惠;周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语音 识别 训练 评分 音译 | ||
1.一种由一个或多个计算机执行的方法,所述方法包括:
由所述一个或多个计算机访问指示用于第一脚本的语言示例的数据集,其中所述语言示例中的至少一些包括所述第一脚本中的词和一个或多个其他脚本中的词;
由所述一个或多个计算机将所述语言示例中的一些的至少部分音译到所述第一脚本,以生成具有被音译到所述第一脚本的词的训练数据集;和
由所述一个或多个计算机基于具有被音译到所述第一脚本的词的所述训练数据集中的词的序列的出现,来生成语音识别模型。
2.根据前述权利要求中的任一项所述的方法,其中,所述语音识别模型是语言模型、声学模型、序列到序列模型或端到端模型。
3.根据前述权利要求中的任一项所述的方法,其中,音译包括将表示来自不同脚本的文本的不同形符映射到单个标准化音译表示。
4.根据前述权利要求中的任一项所述的方法,其中,对所述语言示例进行音译包括将所述语言示例中的不在所述第一脚本中的词音译到所述第一脚本。
5.根据前述权利要求中的任一项所述的方法,其中,对所述语言示例进行音译包括:
访问不同于所述第一脚本的脚本中的词项的黑名单;和
绕过所述语言示例中出现的、来自所述黑名单中的词项实例的音译。
6.根据前述权利要求中的任一项所述的方法,其中,对所述语言示例进行音译包括生成改变的语言示例,在改变的语言示例中,以不同于所述第一脚本的第二脚本书写的词被替换为近似所述第一脚本中的词的声学特性的所述第一脚本中的一个或多个词。
7.根据权利要求6所述的方法,其中,以所述第二脚本书写的词在逐个词的基础上分别被音译到所述第一脚本。
8.根据前述权利要求中的任一项所述的方法,包括:
确定用于测试所述语音识别模型的语言示例的测试集;
通过将所述测试集中的语言示例中的、未以所述第一脚本书写的词音译到所述第一脚本,来生成标准化测试集;
获取与所述测试集中的语言示例相对应的语音识别模型的输出;
通过将语音识别模型输出的未以所述第一脚本书写的词音译到所述第一脚本,来对所述语音识别模型的输出进行标准化;和
基于所述标准化测试集与标准化语音识别模型输出的比较,确定所述语音识别模型的错误率。
9.根据权利要求8所述的方法,其中,所述错误率是词错误率,并且其中,所述方法包括基于所述词错误率:
确定是继续训练所述语音识别模型还是终止所述语音识别模型的训练;
改变用于训练所述语音识别模型的训练数据集;
设置所述语音识别模型的大小、结构或其他特征;或者
为语音识别任务选择一个或多个语音识别模型。
10.根据前述权利要求中的任一项所述的方法,包括确定所述语音识别模型的建模错误率,其中以多个脚本中的任何一个书写的声学相似的词被接受为正确的转录,而不会惩罚与参考转录中的对应词不同的脚本中的词的输出。
11.根据权利要求10所述的方法,包括确定所述语音识别模型的渲染错误率,所述渲染错误率是所述语音识别模型的输出中的词的脚本相对于参考转录中的对应词的脚本之间的差异的度量。
12.根据前述权利要求中的任一项所述的方法,其中,音译是使用有限状态换能器网络来执行的,所述有限状态换能器网络被训练为执行到所述第一脚本的音译。
13.根据前述权利要求中的任一项所述的方法,其中,音译包括,对于至少一个语言示例,执行脚本之间的多轮音译以达到包括在所述第一脚本中的训练数据集中的所述第一脚本中的音译表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980082043.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多孔PTFE膜
- 下一篇:一种通信的方法、装置及系统