[发明专利]联合端点确定和自动语音识别在审
申请号: | 202080036368.7 | 申请日: | 2020-03-04 |
公开(公告)号: | CN113841195A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 张硕英;罗希特·普拉卡什·普拉巴瓦尔卡尔;加博尔·希姆科;李波;塔拉·N·赛纳特;何严章 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/08;G10L15/04;G10L15/16;G10L15/02 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李宝泉;周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 联合 端点 确定 自动 语音 识别 | ||
1.一种方法(800),包括:
在数据处理硬件(111)处接收用户设备(110)的用户讲出的话语(120)的音频数据(125);
由所述数据处理硬件(111)处理所述音频数据(125)以获得作为来自被配置为联合执行话语的语音解码和端点确定的语音识别模型(140)的输出的:
所述话语(120)的部分语音识别结果;以及
指示所述话语(120)何时已经结束的端点指示(175);
在处理所述音频数据(125)时,由所述数据处理硬件(111)基于从所述语音识别模型(140)输出的所述端点指示(175)来检测所述话语(120)的结尾;以及
响应于检测到所述话语(120)的所述结尾,由所述数据处理硬件(111)终止对在检测到所述话语(120)的所述结尾之后接收的任何后续音频数据(125)的处理。
2.根据权利要求1所述的方法(800),进一步包括:响应于检测到所述话语(120)的所述结尾,由所述数据处理硬件(111)将所述话语(120)的转录(165)传送到搜索引擎或数字谈话助理系统,所述转录(165)基于由所述语音识别模型(140)在处理所述音频数据(125)时输出的所述部分语音识别结果。
3.根据权利要求1或2所述的方法(800),其中,所述语音识别模型(140)包括流语音识别模型(140),所述流语音识别模型(140)被配置为在所述端点指示(175)指示所述话语(120)何时已经结束之前发出所述话语(120)的所述部分语音识别结果。
4.根据权利要求3所述的方法(800),进一步包括:在检测到所述话语(120)的所述结尾之前,由所述数据处理硬件(111)提供由所述语音识别音频发出的任何部分语音识别结果以用于在与所述数据处理硬件(111)通信的屏幕上显示。
5.根据权利要求3或4所述的方法(800),其中,所述语音识别模型(140)包括递归神经网络-转换器(RNN-T)。
6.根据权利要求1至5中的任一项所述的方法(800),其中,所述数据处理硬件(111)驻留在所述用户的所述用户设备(110)上并且执行所述语音识别模型(140)。
7.根据权利要求1至6中的任一项所述的方法(800),进一步包括:响应于检测到所述话语(120)的所述结尾,由所述数据处理硬件(111)使得捕捉所述用户讲出的所述话语(120)的一个或多个麦克风(105)的阵列无效。
8.根据权利要求1至7中的任一项所述的方法(800),其中,所述语音识别模型(140)包括神经网络,所述神经网络被配置为在针对从所述音频数据(125)提取的音频特征(135)的序列中的每个音频特征(135)的输出标签(265)的集合上生成概率分布作为输出,所述输出标签(265)包括语言单元和话语端点符号。
9.根据权利要求8所述的方法(800),其中,处理所述音频数据(125)以获得所述端点指示(175)包括:在包括所述话语端点符号的所述输出标签与满足阈值分数的概率分数相关联时,确定所述语音识别模型(140)已经输出了所述端点指示(175)。
10.根据权利要求8或9所述的方法(800),其中,所述语言单元包括字素、词条或词。
11.根据权利要求8至10中的任一项所述的方法(800),其中,所述输出标签(265)进一步包括以下中的至少一个:
指示话语(120)的开始的话语起始符号;
指示标点元素的标点符号;
指示空格字符的空格符号;或者
不对应于任何拼写正确元素的空白符号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080036368.7/1.html,转载请声明来源钻瓜专利网。