[发明专利]使用地理信息的声学模型适配有效
申请号: | 201180021722.X | 申请日: | 2011-05-23 |
公开(公告)号: | CN103038817A | 公开(公告)日: | 2013-04-10 |
发明(设计)人: | M·I·洛伊德;T·克里斯特詹森 | 申请(专利权)人: | 谷歌公司 |
主分类号: | G10L15/30 | 分类号: | G10L15/30;G10L15/065 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华;孙新国 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 地理信息 声学 模型 | ||
相关申请的交叉引用
本申请要求标题为ACOUSTIC MODEL ADAPTATION USING GEOGRAPHIC INFORMATION、于2010年5月26日提交的第12/787,568号美国申请的优先权,通过援引将其公开内容并入于此。
技术领域
本说明书涉及语音识别。
背景技术
移动设备的用户可以例如通过在键盘上键入或者向麦克风中口述来录入文字。在话音输入的背景中,自动化搜索识别(“ASR”)引擎可能在与特定语言关联的声音基于用户的口音而变化时准确识别口述单词有困难。例如在由纽约人或者波士顿人口述时,典型ASR引擎可能识别单词“park”分别为单词“pork”或者“pack”。
发明内容
一般而言,在本说明书中描述的主题内容的一个创新方面可以体现于方法中,这些方法用于ASR引擎自动地训练、选择、生成或者否则适配在地理位置上专属(或者“地理专属”)于一个或者多个地理区域的一个或者多个声学模型。声学模型应用于用位置信息进行“地理标注”的音频信号(或者“采样”或者“波形”)以通过比较音频信号与声音的统计表示来执行语音识别,这些声音组成特定语言的每个单词。一个或者多个声学模型可以包括在地理位置上专属于单个地理区域或者多个地理区域的单个声学模型。
如本说明书中所用,“地理标注”的音频信号指代已经与位置元数据(例如地理位置元数据或者相对位置元数据)或者地理空间元数据关联或者用该元数据“标注”的信号。除其他以外,位置元数据可以包括导航坐标如纬度和经度、海拔信息、方位或者航向信息、与位置关联的名称或者地址信息、相对位置或者方向信息或者引用位置类型的信息。
用于适配声学模型的方法包括接收多个移动设备在多个地理位置记录的地理标注的音频信号并且使用地理标注的音频信号中的至少部分来适配一个或者多个声学模型。在接收移动设备在地理位置之一内或者附近记录的讲话时,ASR引擎可以使用一个或者多个适配的声学模型对讲话执行语音识别。显然可以在接收讲话之前、期间或者之后适配声学模型。
讲话可以对应于任何类型的话音输入、比如向话音搜索查询系统、口授系统或者对话系统的输入。在话音搜索查询系统的情境中,“搜索查询”包括在用户请求搜索引擎执行搜索查询时用户向搜索引擎提交的一个或者多个查询检索词,其中“检索词”或者“查询检索词”包括一个或者多个全部或者部分单词、字符或者字符串。除其他以外,搜索查询的“结果”(或者“搜索结果”)包括引用如下资源的统一资源标识符(URI),搜索引擎确定该资源响应于搜索查询。除其他以外,搜索结果可以比如包括标题、预览图像、用户等级、地图或者方向、对应资源的描述或者已经从对应资源自动或者手动提取或者否则与对应资源关联的文字摘录。
一般而言,在本说明书中描述的主题内容的另一创新方面可以实现于包括以下动作的方法中:接收与移动设备记录的讲话对应的音频信号;确定与移动设备关联的地理位置;针对地理位置适配一个或者多个声学模型;并且使用针对地理位置适配的一个或者多个声学模型对音频信号执行语音识别。
这些方面的其它实施例包括配置成执行方法的动作的对应系统、装置和在计算机存储设备上编码的计算机程序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180021722.X/2.html,转载请声明来源钻瓜专利网。