[发明专利]基于语音活动检测的音频的定向捕获有效
申请号: | 201880030107.7 | 申请日: | 2018-03-29 |
公开(公告)号: | CN110622524B | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | M·R·希克斯;D·R·克里斯特;A·R·莫吉米 | 申请(专利权)人: | 伯斯有限公司 |
主分类号: | H04R3/00 | 分类号: | H04R3/00;G10L15/08;H04R1/40;G10L25/78 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 董莘 |
地址: | 美国马*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语音 活动 检测 音频 定向 捕获 | ||
本文档描述了一种技术,所述技术可具体表现在一种计算机实现的方法,所述方法包括接收表示由麦克风阵列捕获的音频的信息,其中所述信息包括多个数据集,每个数据集表示根据灵敏度图案沿相对于所述麦克风阵列的对应方向捕获的音频信号。所述方法还包括使用一个或多个处理设备来针对所述多个数据集中的每一者计算指示从所述对应方向捕获的人类语音活动的一个或多个量,以及至少基于针对多组所述多个数据集计算的所述一个或多个量来生成表示从特定方向捕获的音频的定向音频信号。
技术领域
本公开整体涉及包括用于捕获声学信号的麦克风阵列的声学设备。
背景技术
麦克风阵列可用于沿特定方向捕获声学信号。
发明内容
在一个方面,本文档的特征在于一种计算机实现的方法,该方法包括接收表示由麦克风阵列捕获的音频的信息,其中该信息包括多个数据集,每个数据集表示根据灵敏度图案沿相对于麦克风阵列的对应方向捕获的音频信号。该方法还包括使用一个或多个处理设备来针对多个数据集中的每一者计算指示从对应方向捕获的人类语音活动的一个或多个量,以及至少基于针对多组多个数据集计算的一个或多个量来生成表示从特定方向捕获的音频的定向音频信号。
在另一方面,本文档的特征在于一种装置,该装置包括麦克风阵列、被配置为生成音频信号的一个或多个声换能器,以及包括存储器和一个或多个处理设备的音频处理引擎。音频处理引擎被配置为接收表示由麦克风阵列捕获的音频的信息,其中该信息包括多个数据集,每个数据集表示根据灵敏度图案沿相对于麦克风阵列的对应方向捕获的音频信号。音频处理引擎还被配置为针对多个数据集中的每一者计算指示从对应方向捕获的人类语音活动的一个或多个量,以及至少基于针对多组多个数据集计算的一个或多个量来生成表示从特定方向捕获的音频的定向音频信号。
在另一方面,本文档的特征在于一个或多个机器可读存储设备,该一个或多个机器可读存储设备具有在其上编码的用于使一个或多个处理设备执行各种操作的计算机可读指令。这些操作包括接收表示由麦克风阵列捕获的音频的信息,其中该信息包括多个数据集,每个数据集表示根据灵敏度图案沿相对于麦克风阵列的对应方向捕获的音频信号。这些操作还包括针对多个数据集中的每一者计算指示从对应方向捕获的人类语音活动的一个或多个量,以及至少基于针对多组多个数据集计算的一个或多个量来生成表示从特定方向捕获的音频的定向音频信号。
上述方面的具体实施可以包括以下特征中的一个或多个。可从被配置为处理使用麦克风阵列捕获的信号的波束形成器接收表示由麦克风阵列捕获的音频的信息。多个数据集中的每一者可对应于使用波束形成器生成的波束。波束形成器可为固定波束形成器或动态波束形成器中的一种。指示人类语音活动的一个或多个量可包括人类语音活动在针对对应方向的数据集中表示的音频信号中的可能性分数。指示人类语音活动的一个或多个量可包括信噪比(SNR)。SNR可被计算为表示语音信号的第一量与表示非语音信号的第二量的比率。指示人类语音活动的一个或多个量可表示在针对对应方向的数据集中表示的音频信号中存在关键词的可能性分数。生成定向音频信号可包括选择多个数据集中的一个。生成定向音频信号可包括使动态波束形成器根据针对特定方向生成的灵敏度图案来捕获音频。
本文所述的各种实施方式可提供以下优点中的一者或多者。通过基于语音活动的方向而不是最主导声源的方向来控制波束形成器,即使在存在生成大量声能的噪声源的情况下,也可以准确地捕获语音输入。在一些情况下,这可提升语音激活设备在存在主导的非语音噪声源诸如空调的情况下的性能。在一些情况下,相关的语音活动的方向可也经由检测口语关键词的发生来确定。这继而可提升语音激活设备在存在来自多个说话者的语音信号的情况下的性能。
本公开中所述的两个或更多个特征,包括本发明内容部分中所述的那些,可组合以形成在本文未具体描述的实施方式。
一个或多个实施方式的细节在附图和以下描述中论述。其他特征、对象和优点在说明书、附图和权利要求书中将是显而易见的。
附图说明
图1是其中可设置语音激活设备的环境的示例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于伯斯有限公司,未经伯斯有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880030107.7/2.html,转载请声明来源钻瓜专利网。