[发明专利]使用时间和/或频谱压缩的音频命令的控制无效
申请号: | 201310108025.9 | 申请日: | 2013-02-28 |
公开(公告)号: | CN103295571A | 公开(公告)日: | 2013-09-11 |
发明(设计)人: | H·P·拉尔格伊 | 申请(专利权)人: | 辉达公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L21/04 |
代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 董巍;徐丁峰 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用时间 频谱 压缩 音频 命令 控制 | ||
技术领域
本申请大体上涉及控制电子设备的操作的设备、系统和方法。
背景技术
各种电子设备可例如由击键序列或口语单词来控制。例如,在一些情况下电子设备可直接由话音命令控制。在其它的情况下,控制系统,例如声话音应答系统(VRS),可被设计用来响应语音命令或关键词。但是,在某些情况下,由于环境噪声,例如背景谈话,使得控制该设备可能是困难的。
发明内容
一方面提供包括接收器和命令鉴别器的声音激活的控制系统。该接收器配置用来接收音频波形并从音频波形中生成数字音频波形。命令鉴别器配置用来检测数字音频波形内的时间和/或频谱压缩的非语音音频命令且响应于非语音命令控制话音激活的系统。
另一方面提供一种电子设备。该电子设备包括音频接收器和命令翻译器。该音频接收器配置用来由接收到的音频信号生成数字音频波形。该命令翻译器配置用来检测数字音频波形内的时间和/或频谱压缩的非语音音频命令。命令翻译器响应于检测到非语音命令从非语音命令中合成语音命令。
另一实施例提供一种话音激活的控制的方法。该方法包括提供配置用来将接收到的音频波形转换为数字音频波形的模数转换器(ADC)。该ADC耦联至命令鉴别器。该命令鉴别器依次被配置用来检测数字音频波形内的时间和/或频谱压缩的非语音音频命令。该命令鉴别器被进一步配置用来响应于非语音命令控制话音激活的系统。
附图说明
结合附图现做出对以下描述的参考,其中:
图1A和1B分别图解了用在各种实施例中以控制语音激活设备或系统的非发音命令的时域和频域表示;
图2A和2B分别图解了音频信号的时域表示,包括时间压缩的突发和与该时间压缩的突发关联的功率尖峰;
图3A图解了音频信号的频域表示,例如在拥挤的房间内的声音的合成;
图3B图解了如图3A中的频域表示,附加包括如图1B所示的频谱部分;
图4图解了在一实施例中的电子设备,包括用来在接收的音频信号内检测时间和/或频谱压缩的信号的命令鉴别器配置,其中命令鉴别器合成用于有线或无线传输的话音命令;
图5示出了操作电子设备(例如图4的设备)的方法的流程图,以检测非语音命令的发生;
图6示出了电子设备的实施例的诸方面,其中响应于检测的非语音命冷,命令鉴别器提供命令至功能块;
图7示出了在一实施例中的话音应答系统,其中命令鉴别器可将接收到的非语音命令转换为话音应答系统配置用来响应的合成的语音命令;和
图8示出了例如生产根据本公开的各种实施例说明的设备或系统的方法。
具体实施方式
各种实施例涉及时间压缩和/或频谱压缩的非语音音频信号。这里,音频信号可以是时间压缩的、频谱压缩的、或两者。图1A没有限制地示出了代表性的时间压缩的音频信号110,且图1B示出了代表性的频谱压缩的音频信号的频谱120。
首先针对图1A,这里论述和权利要求中使用的时间压缩被定义为,其持续时间近似于或短于口语音素的持续时间。例如,口语单词可分解成许多音素,这些音素在正常说话速率下有大约100-500毫秒的持续时间。一些发声,例如辅音,可有更短的持续时间,例如小于约100毫秒。因此,音频信号110可有大约500毫秒或更短的持续时间AT。
接下来讨论图1B,这里的论述和权利要求中使用的频谱压缩被定义为,其非语音音频信号的声能量的至少50%被集中在一频谱带宽中,该频谱带宽充分小于典型人发声的频谱带宽。本文中的充分小于意思是大约10%或更小于人的话音频谱带宽。例如,人讲话的频谱分量典型地落在约100Hz到约5kHz的范围内。电磁频谱的话音频带,例如从约300Hz到约3kHz,经常被用于通过电话设备传达声音信号。参考图1B,频谱压缩的音频信号可使得至少50%的声能量集中在约十分之一的话音频带的带宽Δf内,例如约500Hz或更小。
这里描述的各种实施例提供了改进与话音激活的系统,例如话音应答系统(VRS)和话音控制电子设备(这里被称为VRD),通信的设备、系统和方法。尽管这样的系统或设备可能在低环境噪音的状态下工作良好,但当背景噪音的级别变得太大时,设备或系统性能可以因为差的话音命令识别而下降。当背景噪音包含可掩盖或接近于自动系统或设备的用户说出的有意图的语音命令的谈话或其它话语源时,这个问题变得尤其明显。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辉达公司,未经辉达公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310108025.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:制造热辅助磁记录头的方法
- 下一篇:像素电路及其驱动方法