[发明专利]用户专用的自动语音识别在审
申请号: | 201280071506.0 | 申请日: | 2012-03-16 |
公开(公告)号: | CN104488025A | 公开(公告)日: | 2015-04-01 |
发明(设计)人: | T·沃尔夫;M·布克;T·豪利克;苏哈迪 | 申请(专利权)人: | 纽昂斯通讯公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘瑜;王英 |
地址: | 美国马*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 专用 自动 语音 识别 | ||
技术领域
本发明涉及一种用于计算机系统的用户接口,更确切地,涉及一种使用自动语音识别的用户专用的、多模式的、声音控制的接口。
背景技术
在声音控制的设备中,通常使用一键通(push-to-talk,PTT)按钮来触发自动语音识别(ASR)。按下PTT按钮使得该系统对任何说出的词输入作出响应,而不考虑是谁发出的语音。在远距离的通话应用例如声控电视或计算机游戏控制台中,PTT按钮可以被激活词命令所替代。另外,可能会有多个用户潜在地想要进行声音控制。
通常ASR系统配备有用于克服干扰和噪音的信号预处理器。常常使用多个麦克风,特别是对于远距离通话接口,其中语音增强算法在空间上被操纵指向假定的说话者的方向(波束成形)。因此,来自于其它方向的干扰将被抑制。这对于所期望的说话者而言提高了ASR性能,但是对于其他人而言降低了ASR性能。因而,ASR性能依赖于说话者相对于麦克风阵列的空间位置,以及波束成形算法的操纵方向。
发明内容
本发明的实施例是针对采用至少一个硬件实现的计算机处理器的自动语音识别(ASR)系统的多模式声音控制的用户接口,以及使用这一接口相应的方法。该用户接口适用于与一个或多个可能的说话者进行语音对话,并且包括广泛倾听模式,其接收可能的说话者的语音输入而不进行空间过滤,以及选择性倾听模式,其使用空间过滤将语音输入限定为特定说话者。该用户接口响应于一个或多个切换提示切换倾听模式。
广泛倾听模式可能使用相关联的广泛模式识别词汇表,而选择性倾听模式使用不同的相关联的选择性模式识别词汇表。该切换提示能够包括来自于语音输入的一个或多个模式切换词,在语音对话中的一个或多个对话状态,和/或来自于可能说话者的一个或多个视觉提示。选择性倾听模式可以使用声学说话者位置和/或图像处理以用于空间过滤。
在选择性倾听模式,对于多个被选择的说话者的每个而言,用户接口能够同时并行操作。此外或可替换地,该接口可以被适应为在两个倾听模式下并行操作,此时接口在广泛倾听模式下接收来自房间内的任何用户的语音输入,与此同时在选择性倾听模式下接收仅仅来自于一个被选择的说话者的语音输入。
本发明的实施例还包括用于自动语音识别(ASR)的设备,其包括采用至少一个硬件实现的计算机处理器的语音控制的用户接口。该用户接口适用于与一个或多个可能的说话者进行语音对话。用户选择模块与用户接口进行通信,以用于基于可能的说话者的图像处理使用空间过滤来限制用户接口,以便仅响应来自于一个特定说话者的声音输入。
空间过滤可以进一步基于多个麦克风的选择性的波束成形。用户接口可以进一步适用于提供视觉反馈来指示特定说话者的方向和/或特定说话者的身份。图像处理可以包括执行可能说话者的视觉图像的手势识别和/或可能说话者的面部的视觉图像的面部识别。
附图说明
图1示出了根据本发明的实施例的用于使用语音控制的用户接口的布置。
图2示出了根据本发明的实施例的用于用户专用语音控制的用户接口的状态图。
图3示出了使用声学和内容信息来选择给定说话者作为活跃用户。
图4示出了使用视觉信息来选择给定说话者作为活跃用户。
图5示出了使用视觉、声学和内容信息的结合来选择给定说话者作为活跃用户。
图6示出了具有顺序可交替的操作模式的声音控制接口的顺序布置。
图7示出了用于具有同步并行操作模式的声音控制接口的并行布置。
具体实施方式
本发明的实施例是针对用户专用ASR,其将语音控制功能限制在一个被选择的用户上,而不是恰巧在附近的任意用户。这可以基于,例如,用户说调用用户限制功能的特定的激活词。之后,该系统可以仍然专用于所指定的用户,直至特定对话结束或某些其它模式切换事件发生。在运行在用户专用模式时,该系统不响应来自于其它用户(干扰说话者)的任何说出的输入。
更确切地,本发明的实施例包括用户专用的、多模式的、语音控制的接口,其使用自动语音识别,具有两个不同种类的倾听模式:(1)广泛倾听模式,其响应于来自于任何方向的任何用户的语音输入;和(2)选择性倾听模式,其将语音输入限定到特定位置上的特定说话者。该接口系统可以基于不同的切换提示来切换模式:对话状态,某些激活词,或视觉手势。不同的倾听模式也可以使用不同的识别词汇表,例如,广泛倾听模式下的受限的词汇表和选择性倾听模式下的较大的识别词汇表。为了将语音输入限制为特定说话者,该系统可以使用声学说话者位置和/或视频处理单元来确定说话者位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于纽昂斯通讯公司,未经纽昂斯通讯公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280071506.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:声音处理系统
- 下一篇:篡改明显栓体安全密封件