[发明专利]分布式语音识别系统中的语音模型检索有效
申请号: | 201380064858.8 | 申请日: | 2013-12-10 |
公开(公告)号: | CN105122354B | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 伯乔恩·霍夫迈斯特;休·埃文·塞克-瓦尔克;杰弗瑞·科尔内留斯·奥尼尔 | 申请(专利权)人: | 亚马逊技术有限公司 |
主分类号: | G10L15/32 | 分类号: | G10L15/32;G10L15/30 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 顾丽波;李荣胜 |
地址: | 美国内*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 语音 识别 系统 中的 模型 检索 | ||
本发明公开用于管理自动化语音识别系统中的语音识别模型和数据的使用的特征。在被接收到的时候或在话语开始用更通用或不同的模型进行处理之后,模型和数据可被异步检索和使用。一旦被接收到,所述模型和统计数据便可被高速缓存。更新模型和数据所需的统计数据也可被异步检索,从而可以在可用的时候用来更新所述模型和数据。所述经更新的模型和数据可以立即用来再处理话语,或经保存用于处理随后接收的话语。可跟踪用户与所述自动化语音识别系统的交互,以便预测用户可能会使用所述系统的时间。模型和数据可以基于此类预测进行预先高速缓存。
技术领域
本发明公开用于管理自动化语音识别系统中的语音识别模型和数据的使用的特征。
背景技术
现代语音识别系统通常包含声学模型和语言模型。声学模型用来生成关于哪些字词或子字单元(例如,音素)基于话语的声学特征对应于话语的假设。语言模型用来基于说出话语的语言的词汇特征来确定使用声学模型生成的哪个假设最有可能是话语的转录。
语音识别中使用的声学模型、语言模型及其它模型(统称为语音识别模型)可在各种程度上专门化或自定义。例如,语音识别系统可具有并不采用任何特定方式自定义的通用模型或基础模型,以及用于特定性别、年龄范围、地域口音或其任何组合的任何数量的额外模型。一些系统可具有用于特定主题(例如,医学术语)乃至特定用户的模型。
语音识别系统可以基于客户端或基于客户端-服务器。例如,膝上型计算机等计算装置可包含应用软件和数据,以便将音频输入处理成文本输出或音频输入的可能转录的列表。一些语音识别通过个人或移动计算装置来接受音频输入,并将音频输入传递到网络可访问的服务器,在该网络可访问的服务器中,音频输入被转录或执行其它处理。
发明内容
相应地,本发明提供了一种语音识别系统,其包括:
存储可执行指令的计算机可读存储器;以及
与所述计算机可读存储器通信的一个或多个处理器,其中所述一个或多个处理器经所述可执行指令编程以:
从客户端装置接收包括用户话语的音频数据;
确定额外语音识别模型不可用;
使用基础语音识别模型来对所述音频数据执行第一语音识别处理,以产生第一语音识别结果;
从网络可访问的数据存储区请求所述额外语音识别模型,其中所述请求是在接收所述音频数据之后和完成所述第一语音识别处理之前开始的;
从所述网络可访问的数据存储区接收所述额外语音识别模型;
基于获得所述额外语音识别模型的时间,确定所述系统在开始产生第一语音识别结果之后使用所述额外语音识别模型产生第二语音处理结果;
使用所述额外语音识别模型以及使用所述音频数据或所述第一语音识别结果中的至少一个来执行第二语音识别处理;以及
至少部分基于所述第二语音识别处理,将响应传输到所述客户端装置。
在本发明的某些实施方案中,所述基础语音识别模型包括通用声学模型、性别特定声学模型或通用语言模型中的至少一个,并且其中至少部分基于与所述用户话语相关联的用户的特性来选择所述额外语音识别模型。
在本发明的某些实施方案中,所述一个或多个处理器还经所述可执行指令编程以:
从所述客户端装置接收包括第二用户话语的第二音频数据;
确定所述额外语音识别模型可用;以及
使用所述额外语音识别模型对所述第二音频数据执行语音识别处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亚马逊技术有限公司,未经亚马逊技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380064858.8/2.html,转载请声明来源钻瓜专利网。