[发明专利]集成的本地和基于云的语音识别有效
申请号: | 201210320230.7 | 申请日: | 2012-08-31 |
公开(公告)号: | CN102903362A | 公开(公告)日: | 2013-01-30 |
发明(设计)人: | T·M·苏摩;L·宋;M·H·金;C·R·海涅曼;D·H·霍金斯 | 申请(专利权)人: | 微软公司 |
主分类号: | G10L15/34 | 分类号: | G10L15/34;H04L29/08 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 顾嘉运 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集成 本地 基于 语音 识别 | ||
1.一种用于执行语音识别的方法,包括:
从多个话筒获取(502)多个音频信号,所述多个音频信号中的每一个都与所述多个话筒中的不同话筒相关联,所述多个音频信号与第一环境相关联;
确定(507)所述第一环境中的一个或多个方向,所述第一环境包括一个或多个人,所述一个或多个方向中的每一个都与所述一个或多个人中的不同人相关联;
基于所述多个音频信号来生成(508)一个或多个音频记录,所述一个或多个音频记录中的第一音频记录通过以下操作生成:对所述多个音频信号应用音频信号处理技术以使得源自所述一个或多个方向中的第一方向的声音被放大,同时源自一个或多个其他方向的其他声音被削弱;
对所述多个音频记录中的每一个执行(512)本地语音识别,所述执行本地语音识别包括检测第一话语以及检测所述第一话语中的一个或多个关键字,所述第一话语通过对所述一个或多个音频记录中的第一音频记录应用一种或多种语音检测技术来检测;
将所述第一话语以及所述一个或多个关键字传送(516)到第二计算设备,所述第二计算设备对所述第一话语执行语音识别技术,所述语音识别技术检测所述第一话语中的一个或多个单词;以及
从所述第二计算设备接收(518)基于所述第一话语的第一响应。
2.如权利要求1所述的方法,其特征在于:
所述第二计算设备标识与如在所述第一话语中发音的一个或多个关键字相关联的一个或多个语音,所述第二计算设备基于所述一个或多个语音来使所述语音识别技术进行适应;以及
所述第一响应包括与所述第一话语中由所述第二计算设备检测到的一个或多个单词相关联的文本消息。
3.如权利要求1-2中的任一项所述的方法,其特征在于:
所述传送所述第一话语以及所述一个或多个关键字包括传送与所述第一话语相关联的音频文件以及将与所述一个或多个关键字相关联的文本信息传送到所述第二计算设备;以及
所述第一话语通过对所述第一音频记录应用一个或多个话音活动检测技术来检测。
4.如权利要求1-3中任一项所述的方法,其特征在于,还包括:
将与所述一个或多个关键字相关联的一个或多个位置指针传送到所述第二计算设备,所述检测所述第一话语中的一个或多个关键字包括确定所述第一话语中的所述一个或多个位置指针。
5.如权利要求1-4中任一项所述的方法,其特征在于,还包括:
在所述确定一个或多个方向之前执行对所述多个音频信号的回声抵消。
6.如权利要求1-5中的任一项所述的方法,其特征在于:
所述确定一个或多个方向包括执行声源定位,所述执行声源定位包括确定与所述一个或多个人中的每一个相关联的角度和置信度。
7.如权利要求1-6中任一项所述的方法,其特征在于,还包括:
获取所述第一环境中的一个或多个图像,所述多个音频信号在第一时间段期间与所述第一环境相关联,所述一个或多个图像在所述第一时间段期间与所述第一环境相关联,所述一个或多个图像包括一个或多个深度图像,所述确定一个或多个方向包括基于所述一个或多个人中的每一个的一个或多个图像来执行骨架跟踪。
8.一种用于集成本地和基于云的语音识别的电子设备,包括:
包括多个话筒的捕捉设备(20),所述捕捉设备从所述多个话筒获取一个或多个声音,所述一个或多个声音与第一环境相关联;以及
一个或多个处理器(42),所述一个或多个处理器确定所述第一环境中的一个或多个方向,所述第一环境包括一个或多个人,所述一个或多个方向中的每一个都与所述一个或多个人中的不同人相关联,所述一个或多个处理器基于所述一个或多个声音来生成一个或多个音频记录,所述一个或多个音频记录中的每一个都与所述一个或多个方向中的不同方向相关联,所述一个或多个处理器通过对所述第一音频记录应用一种或多种语音检测技术来检测所述一个或多个音频记录中的第一音频记录中的第一话语,所述一个或多个处理器检测所述第一话语中的一个或多个关键字,所述一个或多个处理器将所述第一话语以及所述一个或多个关键字传送到第二计算设备,所述第二计算设备基于所述一个或多个关键字来对所述第一话语执行语音识别技术,所述语音识别技术检测所述第一话语中的一个或多个单词,所述一个或多个处理器从所述第二计算设备接收基于所述第一话语的第一响应。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210320230.7/1.html,转载请声明来源钻瓜专利网。