[发明专利]基于位置标记的语音识别模型有效
申请号: | 201380040775.5 | 申请日: | 2013-07-23 |
公开(公告)号: | CN104509079B | 公开(公告)日: | 2017-06-09 |
发明(设计)人: | G·陶布曼;B·斯特罗普 | 申请(专利权)人: | 谷歌公司 |
主分类号: | H04M1/725 | 分类号: | H04M1/725;G10L15/30;G10L15/183;G10L15/22 |
代理公司: | 北京市金杜律师事务所11256 | 代理人: | 酆迅 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 位置 标记 语音 识别 模型 | ||
相关申请的交叉引用
本申请要求于2012年8月1日提交的序列号为61/678,277和于2012年10月15日提交的序列号为13/651,566的美国临时申请的权益,其整体如同完全记载于此一样通过引用的方式并入。
技术领域
本说明书总体上涉及自动语音识别。
背景技术
语音识别通常依赖于所说语言的语音识别模型。然而,对于给定的语言(或给定语言的方言),取决于在何处发出词语而不同地使用词语。例如,当人在他们的客厅中时,他们可能频繁地使用与电视节目和媒体播放器的控制相关的词语,而当人在他们的厨房中时,他们可能使用与食物类型或烹饪相关的词语。用于语音识别的典型语言模型通常没有考虑到在说出词语处的位置特定情境,特别是对于在建筑物(例如在家)内的词语使用的变化。
发明内容
一般而言,本说明书中所描述的主题的一方面可以包括自动语音识别引擎(ASR),该自动语音识别引擎使用基于说话者在建筑物中何处做出话语的模型,执行语音识别。在一些实现方式中,该语音识别模型可以是基于两个或更多情境特定模型的复合模型。ASR引擎可以将话语转录成文本,例如用于语音查询,或者通过处理器执行将话语转换成命令。
在某些方面,本说明书中所描述的主题可以体现为方法,该方法包括接收对应于话语的数据和获得用于其中该话语被说出的建筑物内的区域的位置标记的动作。进一步的动作包括基于位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于位置标记的权重相关联。此外,所述动作还包括使用所选择的一个或多个模型和所选择的一个或多个模型的相应权重来生成复合模型。所述动作还包括使用复合模型生成话语的转录。
主题的另一方面可以体现为方法,该方法包括在客户端设备处接收话语和在客户端设备处获得用于其中该话语被说出的建筑物内的区域的位置标记的动作。所述动作还包括从客户端设备向服务器传送对应于话语和用于其中话语被说出的建筑物内的区域的位置标记的数据。并且所述动作包括在客户端设备处接收话语的转录。在一些方面,使用复合模型生成话语的转录,并且使用一个或多个模型和基于位置标记而选择的一个或多个模型的相应权重来生成复合模型。
其他版本包括相对应的系统、装置和被配置为执行所述方法的动作的计算机程序,该计算机程序编码在计算机存储设备上。
这些和其他的版本可以每个可选择地包括以下特征中的一个或多个特征。例如,一些实现方式涉及到从客户端设备接收对应于话语的数据,从客户端设备接收用于其中该话语被说出的建筑物内的区域的位置标记。该位置标记可以为基于在客户端设备处接收的短程无线电传输的位置数据。
一些实现方式涉及到使用位置无关语言模型生成话语的一个或多个候选转录,并且然后基于将一个或多个候选转录与一个或多个位置相关语言模型中的短语进行比较,标识建筑物内的一个或多个候选区域。
某些实现方式涉及到从在建筑物处的处理系统接收对应于话语的数据,并且从在建筑物处的处理系统接收用于其中话语被说出的建筑物内的区域的位置标记。在一些方面,位置标记为从处理系统获得的位置数据。处理系统使用被布置在建筑物中的麦克风阵列定位话语,其中麦克风阵列可操作地耦合到处理系统。
此外,在一些实现方式中,所选择的用于语音识别的模型为语言模型,并且复合模型为复合语言模型。在一些实现方式中,所选择的用于语音识别的模型为声学模型,并且复合模型为复合声学模型。并且在一些实现方式中,所选择的用于语音识别的模型为语言模型和声学模型,并且复合模型为复合语言模型和复合声学模型。
在下文的附图和描述中记载了本说明书所描述的主题的一个或多个实施例的细节。所述主题的其他特征、方面以及优点将根据描述、附图和权利要求而变得清楚。
附图说明
图1a和1b是生成位置相关语音识别模型和使用位置相关语音识别模型执行语音识别的示例系统的图。
图2是生成和获得位置相关声学模型以用于在语音识别中使用的样本ASR引擎的组件的图。
图3a和3b是生成和获得位置相关语音模型以用于在语音识别中使用的样本ASR引擎的组件的图。
图4是用于使用基于位置标记的语音识别模型来执行语音识别的示例过程的流程图。
在不同附图中相同的附图的标记表示相同的元件。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380040775.5/2.html,转载请声明来源钻瓜专利网。