[发明专利]用于语音识别的语音模型和噪声模型有效
申请号: | 201180026390.4 | 申请日: | 2011-06-13 |
公开(公告)号: | CN103069480A | 公开(公告)日: | 2013-04-24 |
发明(设计)人: | M·I·洛伊德;T·克里斯特詹森 | 申请(专利权)人: | 谷歌公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅;辛鸣 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语音 识别 模型 噪声 | ||
相关申请的交叉引用
本申请要求于2010年6月14日递交的、标题为“SPEECH ANDNOISE MODELS FOR SPEECH RECOGNITION”的美国申请序列号12/814,665的优先权,其公开内容通过引用并入于此。
技术领域
本说明书涉及语音识别。
背景技术
语音识别可以用于话音搜索查询。通常,搜索查询包括当用户请求搜索引擎执行搜索时用户向搜索引擎提交的一个或者多个查询项。在其他方式中,用户可以通过在键盘上键入或者在话音查询的情况下通过向例如移动设备的麦克风中口述查询项来录入搜索查询的查询项。
当通过例如移动设备提交话音查询时,移动设备的麦克风除了用户的口述话语之外还可能记录环境噪声或者声音,在其他方面被称作“环境音频”或“背景音频”。例如,环境音频可以包括位于用户周围的其他人的背景聊天或者谈话或者由自然(例如,狗吠)或者人造物体(例如,办公室、机场或者公路噪声或者建筑活动)生成的噪声。环境音频可能部分地遮蔽用户的话音,从而使得自动化语音识别(“ASR”)引擎难以准确识别口述话语。
发明内容
在一个方面,一种系统包括一个或多个处理设备以及存储有指令的一个或多个存储设备,当指令被一个或多个处理设备执行时,使得一个或多个处理设备接收由设备基于来自用户的音频输入生成的音频信号,音频信号至少包括对应于由设备记录的一个或多个用户话语的用户音频部分;访问与用户相关联的用户语音模型;确定音频信号中的背景音频在定义阈值以下;响应于确定音频信号中的背景音频在定义的阈值以下,基于音频信号适配访问的用户语音模型以生成对用户语音特性建模的适配用户语音模型;以及使用适配用户语音模型对接收的音频信号执行噪声补偿以生成与接收的音频信号相比具有减少的背景音频的滤波音频信号。
实现方式可以包括一个或多个以下特征。例如,音频信号可以包括仅对应于围绕用户的背景音频的环境音频部分以确定音频信号中的背景音频在定义阈值之下,指令可以包括如下指令,当被执行时,使得一个或多个处理设备确定环境音频部分中的能量的量;以及确定环境音频部分中能量的量在阈值能量之下。为了确定音频信号中的背景音频在定义阈值之下,指令包括如下指令,当被执行时,使得所述一个或多个处理设备确定音频信号的信噪比;以及确定该信噪比在阈值信噪比之下。音频信号可以包括仅对应于围绕用户的背景音频的环境音频部分以确定音频信号的信噪比,指令包括如下指令,当被执行时,使得一个或多个处理设备确定音频信号的用户音频部分中的能量的量;确定音频信号的环境音频部分中的能量的量;以及通过确定用户音频部分与环境音频部分中的能量的量之间的比率来确定信噪比。
访问的用户语音模型可以包括尚未适配为对用户的语音特性建模的替代用户语音模型。指令可以包括如下指令,当被一个或多个处理设备执行时,使得一个或多个处理设备选择替代用户语音模型;以及将替代语音模型与用户相关联。为了选择替代用户语音模型,指令可以包括如下指令,当被一个或多个处理设备执行时,使得一个或多个处理设备确定用户的性别;以及基于用户的性别从多个替代用户语音模型之中选择替代用户语音模型。为了选择替代用户语音模型,指令可以包括如下指令,当被一个或多个处理设备执行时,使得一个或多个处理设备确定在记录一个或多个话语时用户的位置;以及基于在记录一个或多个话语时用户的位置从多个替代用户语音模型之中选择替代用户语音模型。为了选择替代用户语音模型,指令可以包括如下指令,当被一个或多个处理设备执行时,使得一个或多个处理设备确定用户的语言或口音;以及基于语言或口音从多个替代用户语音模型之中选择替代用户语音模型。为了选择替代用户语音模型,指令可以包括如下指令,当被一个或多个处理设备执行时,使得一个或多个处理设备接收至少包括对应于由设备记录的一个或多个用户话语的最初用户音频部分的最初音频信号;确定多个替代用户语音模型与基于所述最初音频信号确定的用户的期望用户语音模型之间的相似性度量;以及基于相似性度量从多个替代用户语音模型之中选择替代用户语音模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180026390.4/2.html,转载请声明来源钻瓜专利网。