[发明专利]具有并行识别任务的语音识别有效

专利信息
申请号: 200980134034.7 申请日: 2009-07-02
公开(公告)号: CN102138175A 公开(公告)日: 2011-07-27
发明(设计)人: 布莱恩·斯特罗普;弗朗索瓦丝·博费;奥利维尔·西奥汉 申请(专利权)人: 谷歌公司
主分类号: G10L15/00 分类号: G10L15/00
代理公司: 中原信达知识产权代理有限责任公司 11219 代理人: 周亚荣;安翔
地址: 美国加利*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 具有 并行 识别 任务 语音
【说明书】:

技术领域

本申请涉及语音识别。

背景技术

许多应用受益于接收以语音命令或询问形式的输入。对于在诸如蜂窝电话的移动设备上运行的应用特别如此,其中通过小键盘或者用户手指操纵的其他设备进行输入可能因设备的减小的尺寸而是困难的。类似地,如果移动设备用于访问在另一设备(例如,电子邮件服务器、地图/路线服务器或者电话簿服务器)上运行的应用,则向应用传送语音命令而非通过小键盘等输入命令对于用户可能是更加容易的。

为了使应用对口头输入起作用,语音识别器可以将口头输入转换为由应用使用的符号表示。一些当前的语音识别器可以使用尝试识别口头输入中的可能语音的单个识别系统。使用单个语音识别系统可能将语音识别的准确性限制于与单个语音识别系统相关联的准确性。其他当前的语音识别器可以使用连续的语音识别,其中对口头输入执行两轮或更多轮以确定口头输入最可能表示的语音。多轮的使用可能增加生成最终语音识别结果所需要的时间。

在其他当前的语音识别器中,多个语音识别系统均可以完全处理口头输入并且随后输出结果。由于处理时间的长度由最慢的语音识别系统(和/或由执行语音识别算法的最慢的计算机)确定,因此这种多个语音识别系统的使用也可能增加生成最终结果所需要的时间。

发明内容

一般地,本文描述了并行使用多个语音识别系统(SRS)来识别语音,但是如果所生成的识别结果满足所期望的阈值,则在完成之前中止(abort)一些SRS。例如,每个SRS可能在执行语音识别任务时具有不同的延时和准确性。如果具有较低延时的SRS输出语音识别结果和表述结果中的高置信度的置信度值,则可以中止剩余的SRS执行的语音识别任务。如果置信度值相对于置信度阈值过低,则可以允许更多的SRS生成结果。如果这些结果满足置信度阈值,则可以中止仍未完成语音识别任务的SRS,等等。

在第一一般方面,描述了一种计算机实现的方法。该方法包括接收音频信号并且发起多个语音识别系统(SRS)的语音识别任务。每个SRS被配置为生成指出音频信号中包括的可能语音的识别结果和指示语音结果的正确性的置信度的置信度值。该方法还包括完成一部分语音识别任务,包括生成一个或多个识别结果和关于一个或多个识别结果的一个或多个置信度值,确定一个或多个置信度值是否满足置信度阈值,对于未生成识别结果的SRS中止剩余部分的语音识别任务,并且基于所生成的一个或多个语音结果中的至少一个输出最终识别结果。

在第二一般方面,描述了一种系统,其包括多个语音识别系统,所述多个语音识别系统发起用于识别编码在接收到的音频信号中的可能语音的语音识别任务。每个语音识别系统(SRS)被配置为生成识别结果和指示识别结果的正确性的置信度的置信度值。该系统还包括识别管理模块,用于在SRS生成识别结果时接收识别结果并且接收与所生成的识别结果相关联的置信度值。如果接收到的置信度值中的一个或多个满足置信度阈值,则识别管理模块中止由未生成识别结果的SRS进行的未完成的语音识别任务。该系统包括接口,用于传送基于所生成的识别结果的置信度值选择的最终识别结果。

在第三一般方面,描述了一种系统,其包括多个语音识别系统,所述多个语音识别系统发起对于接收的音频信号的语音识别任务,每个语音识别系统(SRS)被配置为生成识别音频信号中的可能语音的识别结果和指示识别结果的正确性的置信度的置信度值。该系统包括用于以下的装置:在SRS生成一个或多个识别结果时,从每个SRS接收一个或多个识别结果和一个或多个相应的置信度值,如果接收到的置信度值中的一个或多个满足置信度阈值,则中止由未生成识别结果的SRS进行的未完成的语音识别任务,并且基于所生成的识别结果的置信度值选择最终识别结果。该系统还包括用于传送表示音频信号中的可能语音的最终识别结果的接口。

这里描述的系统和技术可以提供以下优点中的一个或多个。首先,并行地使用多个语音识别系统对音频解码的系统可以提供延时和准确性的改进的联合优化,因为如果接收到令人满意的结果,则可以允许中止未完成的识别任务。此外,使用多个识别系统的系统可以改进拒绝率(即,使拒绝率降低)。系统还可以通过比较多个识别系统输出的识别结果来增加准确性。还可以提供用于缩放(例如,增加)用于提供增加的识别性能的计算资源量的框架。

在附图和下面的描述中阐述了一个或多个实施例的细节。根据描述和附图以及权利要求,其他特征和优点将是显然的。

附图说明

图1是用于识别语音的示例系统的示图。

图2是用于对嵌入在音频传送中的语音解码的示例系统的更详细的示图。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200980134034.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top