[发明专利]联合端点确定和自动语音识别在审

专利信息
申请号: 202080036368.7 申请日: 2020-03-04
公开(公告)号: CN113841195A 公开(公告)日: 2021-12-24
发明(设计)人: 张硕英;罗希特·普拉卡什·普拉巴瓦尔卡尔;加博尔·希姆科;李波;塔拉·N·赛纳特;何严章 申请(专利权)人: 谷歌有限责任公司
主分类号: G10L15/22 分类号: G10L15/22;G10L15/08;G10L15/04;G10L15/16;G10L15/02
代理公司: 中原信达知识产权代理有限责任公司 11219 代理人: 李宝泉;周亚荣
地址: 美国加利*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 联合 端点 确定 自动 语音 识别
【说明书】:

一种方法(800),包括接收话语(120)的音频数据(120)并且处理该音频数据以获得作为来自被配置为联合执行话语的语音解码和端点确定的语音识别模型(140)的输出的:该话语的部分语音识别结果;以及指示该话语何时已经结束的端点指示(175)。在处理该音频数据的同时,该方法还包括基于该端点指示来检测该话语的结尾。响应于检测到该话语的结尾,该方法还包括终止对在检测到该话语的结尾之后接收到的任何后续音频数据的处理。

技术领域

本公开涉及联合端点确定和自动语音识别。

背景技术

自然语言处理系统通常使用端点器来确定用户何时开始及结束讲话。一些传统的端点器在确定话语何时开始或结束时对词之间的停顿的持续时间进行评估。例如,如果用户说“what is长停顿for dinner(晚餐吃什么)”,则传统的端点器可以在长停顿处对话音输入进行分段,并且可以指示自然语言处理系统尝试处理不完整的短语“what is”,而不是处理完整的短语“what is for dinner”。如果端点器为话音输入指定了错误的开始或端点,则处理该话音输入的结果可能是不准确的或者不符合需要的。识别口头话语的结尾或端点确定确定是流自动语音识别(ASR)系统的一项重要功能。

发明内容

本文的实施方式针对一种语音识别模型,其对话音的内容进行解码以及确定话语的结尾。例如,该语音识别模型可以是联合实行语音解码和话音端点确定这两者的神经网络模型。该模型可以是端对端模型,诸如接收指示话语的音频特性的输入数据并且在不使用外部语言模型的情况下输出拼写正确数据(例如,字素、词条或词)的模型。

利用单一模型联合预测端点和话音内容可以提供多种优势。例如,由于该模型的联合属性,该模型可以基于(i)话语的声学信息以及(ii)该模型对话语的语义含义或语言内容的解释这二者作出端点确定决策。这可以允许比单独评估音频特性的模型更快且更准确的端点确定决策。此外,与首先确定转录并且随后使用转录来作出端点确定决策的系统相比,联合预测端点和话音内容这二者可以明显更快地检测到端点。

一般而言,端点确定是指标识口头话语的结尾的过程,所述口头话语的结尾诸如短语、句子、问题或请求的结尾。一些端点确定技术使用话音活动检测器或查询结尾检测器作为端点器,其通常是与语音识别模型平行操作但是却与之分开的单独的模型或模块。本文的实施方式针对于通过将端点确定功能整合到语音识别模型中而提升自动语音识别(ASR)系统的端点确定。特别地,可以使用端对端模型来联合执行话音识别语音识别和端点确定。如将会显而易见的,采用能够联合执行语音识别和端点确定的端对端模型可以明显地减小检测话语端点时的延迟/时延,并且在一些情况下,将检测端点的延迟/时延减半。

可选地,联合语音识别和端点确定模型也可以随另一个单独的端点确定模块一起被用来提供冗余度和减小平均时延。例如,该联合模型可以在许多环境中提供更快、更准确的端点确定结果,但是专门的端点确定模型则可以在其它环境中提供更好的结果。将这两种技术一起使用可以跨更宽范围的情形提供最佳结果。例如,该系统可以被配置为使得端点被设定在来自两个模型的最早信号处。换句话说,这两个模型都可以并行地评估音频,并且无论这两个模型中的哪一个首先指示端点都将针对话语设定该端点。

本公开的一个方面提供了一种对话语进行端点确定的方法。该方法包括在数据处理硬件处接收用户设备的用户讲出的话语的音频数据,并且由该数据处理硬件处理该音频数据以获得作为来自被配置为联合执行话语的语音解码和端点确定的语音识别模型的输出的:该话语的部分语音识别结果;以及指示该话语何时已经结束的端点指示。在处理该音频数据时,该方法还包括由该数据处理硬件基于从该语音识别模型输出的该端点指示来检测该话语的结尾。该方法还包括响应于检测到该话语的结尾,由该数据处理硬件终止对在检测到该话语的结尾之后接收到的任何后续音频数据的处理。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202080036368.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top