[发明专利]用于增强话音识别准确度的有地理标记的环境音频有效

申请号：	201180019038.8	申请日：	2011-03-22
公开（公告）号：	CN102918591A	公开（公告）日：	2013-02-06
发明（设计）人：	T·克里斯特詹森;M·I·洛伊德	申请（专利权）人：	谷歌公司
主分类号：	G10L21/0208	分类号：	G10L21/0208
代理公司：	北京市金杜律师事务所 11256	代理人：	酆迅
地址：	美国加利***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于增强话音识别准确度地理标记环境音频
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

相关申请的交叉引用

本申请要求于2010年4月14日提交的、标题为GEOTAGGED ENVIRONMENTAL AUDIO FOR ENHANCED SPEECH RECOGNITION ACCURACY的第12/760,147号美国申请的优先权，其公开的内容通过引用并入于此。

技术领域

本说明书涉及话音识别。

背景技术

如在本说明书中所用，“搜索查询”包括当用户请求搜索引擎执行搜索查询时用户向搜索引擎提交的一个或者多个查询检索词，其中“检索词”或者“查询检索词”包括一个或者多个完全或者部分字词、字符或者字符串。搜索查询的“结果”(或者“搜索结果”)包括统一资源定位符(URI)以及其它内容，该URI引用搜索引擎确定响应于搜索查询的资源。搜索结果可以包括其它事物、比如标题、预览图像、用户评分、地图或者方向、对应资源的描述或者已经从对应资源自动或者人工提取的或者以别的方式与对应资源关联的文字摘录。

在其它方式之中，用户可以通过在键盘上键入或者在话音查询的上下文中通过向移动设备的麦克风中口述查询来录入搜索查询的查询检索词。当提交语音查询时，移动设备的麦克风除了用户的口述话语之外还可能记录环境噪声或者声音或者“环境音频”。例如，环境音频可以包括处于用户周围的其他人的背景聊天或者谈话或者自然(例如，狗吠)或者人造物体(例如，办公室、机场或者公路噪声或者建筑活动)生成的噪声。环境音频可能部分地遮蔽用户的语音从而使得自动化话音识别(“ASR”)引擎难以准确识别口述话语。

发明内容

一般而言，可以在用于ASR引擎为地理区域适配、训练、选择或者另外生成噪声模型并且用于将这一噪声模型应用于从位于这一地理区域中或者附近的移动设备接收的“有地理标记的”音频信号(或者“采样”或者“波形”)的方法中体现本说明书中描述的主题内容的一个创新方面。如本说明书所用，“有地理标记的”音频信号指代已经与地理位置元数据或者地理空间元数据关联或者用地理位置元数据或者地理空间元数据“标记”的信号。位置元数据可以包括导航坐标如纬度和经度、海拔信息、方位或者指向信息或者与位置相关联的名称或者地址以及其它内容。

更具体而言，方法包括：接收与由多个移动设备在多个地理位置记录的环境音频对应的有地理标记的音频信号；存储有地理标记的音频信号；以及使用有地理标记的音频信号的所选子集来针对特定地理区域生成噪声模型。在接收移动设备在特定地理区域内或者附近记录的话语时，ASR引擎可以使用针对特定地理区域生成的噪声模型来对音频信号执行噪声补偿，并且可以对噪声补偿的音频信号执行话音识别。注意，可以在接收话语之前、期间或者之后生成用于特定地理区域的噪声模型。

一般而言，可以在包括以下动作的方法中体现本说明书中描述的主题内容的另一创新方面：接收与由多个移动设备在多个地理位置记录的环境音频对应的有地理标记的音频信号；接收与由特定移动设备记录的话语对应的音频信号；确定与特定移动设备相关联的特定地理位置；使用有地理标记的音频信号的子集来针对特定地理位置生成噪声模型，其中使用已经针对特定地理位置生成的噪声模型来对与话语对应的音频信号执行噪声补偿。

这些方面的其它实施例包括被配置成执行方法的动作的对应系统、装置和计算机程序，所述计算机程序编码在计算机存储设备上。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于谷歌公司，未经谷歌公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201180019038.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于增强话音识别准确度的有地理标记的环境音频有效

专利文献下载