[发明专利]分布式语音识别系统中的语音模型检索有效
申请号: | 201380064858.8 | 申请日: | 2013-12-10 |
公开(公告)号: | CN105122354B | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 伯乔恩·霍夫迈斯特;休·埃文·塞克-瓦尔克;杰弗瑞·科尔内留斯·奥尼尔 | 申请(专利权)人: | 亚马逊技术有限公司 |
主分类号: | G10L15/32 | 分类号: | G10L15/32;G10L15/30 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 顾丽波;李荣胜 |
地址: | 美国内*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 语音 识别 系统 中的 模型 检索 | ||
1.一种语音识别系统,其包括:
存储可执行指令的计算机可读存储器;以及
与所述计算机可读存储器通信的一个或多个处理器,其中所述一个或多个处理器经所述可执行指令编程以:
从客户端装置接收包括用户话语的音频数据;
确定额外语音识别模型不可用;
使用基础语音识别模型来对所述音频数据执行第一语音识别处理,以产生第一语音识别结果;
从网络可访问的数据存储区请求所述额外语音识别模型,其中所述请求是在接收所述音频数据之后和完成所述第一语音识别处理之前开始的;
从所述网络可访问的数据存储区接收所述额外语音识别模型;
基于获得所述额外语音识别模型的时间,确定所述系统在开始产生第一语音识别结果之后使用所述额外语音识别模型产生第二语音处理结果;
使用所述额外语音识别模型以及使用所述音频数据或所述第一语音识别结果中的至少一个来执行第二语音识别处理;以及
至少部分基于所述第二语音识别处理,将响应传输到所述客户端装置。
2.根据权利要求1所述的系统,其中所述基础语音识别模型包括通用声学模型、性别特定声学模型或通用语言模型中的至少一个,并且其中至少部分基于与所述用户话语相关联的用户的特性来选择所述额外语音识别模型。
3.根据权利要求1所述的系统,其中所述一个或多个处理器还经所述可执行指令编程以:
从所述客户端装置接收包括第二用户话语的第二音频数据;
确定所述额外语音识别模型可用;以及
使用所述额外语音识别模型对所述第二音频数据执行语音识别处理。
4.根据权利要求1所述的系统,其中所述一个或多个处理器还经所述可执行指令编程,以使用多线程处理以与所述第一语音识别处理的执行并行检索所述额外语音识别模型。
5.根据权利要求1所述的系统,其中所述一个或多个处理器还经所述可执行指令编程以高速缓存所述额外语音识别模型。
6.一种计算机实施语音处理的方法,其包括:
在以特定计算机可执行指令配置的一个或多个计算装置的控制下,
对关于用户话语的音频数据执行第一语音处理,以产生语音处理结果;
从网络可访问的数据存储区请求语音处理数据,其中所述请求是在接收所述音频数据之后和完成所述第一语音处理之前开始的;
从所述网络可访问的数据存储区接收所述语音处理数据;
基于接收所述语音处理数据的时间,确定在执行第一语音处理之后使用所述语音处理数据执行第二语音处理;以及
使用所述语音处理数据以及所述音频数据或所述语音处理结果中的至少一个来执行第二语音处理以产生第二语音处理结果。
7.根据权利要求6所述的计算机实施语音处理的方法,其还包括:
至少部分基于所述用户的特性来选择待请求的语音处理数据。
8.根据权利要求7所述的计算机实施语音处理的方法,其中所述用户的所述特性包括所述用户的性别、年龄、地域口音或身份。
9.根据权利要求6所述的计算机实施语音处理的方法,其中所述语音处理数据包括以下至少一个:声学模型、语言模型、语言模型统计数据、约束最大似然线性回归(“CMLLR”)变换、声道长度归一化(“VTLN”)扭曲因子、倒谱均值和方差数据、意图模型、所命名实体模型或地名录。
10.根据权利要求9所述的计算机实施语音处理的方法,其还包括:
请求用于更新所述语音处理数据的统计数据,其中针对统计数据的所述请求是在完成所述第一语音处理之前开始的。
11.根据权利要求10所述的计算机实施语音处理的方法,其还包括至少部分基于所述统计数据和所述第二语音处理的结果来更新所述语音处理数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亚马逊技术有限公司,未经亚马逊技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380064858.8/1.html,转载请声明来源钻瓜专利网。