[发明专利]基于关键词改进麦克风阵列远场拾音的方法有效
申请号: | 201811058277.4 | 申请日: | 2018-09-11 |
公开(公告)号: | CN109192219B | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 董天旭 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L21/0208;G10L21/0316;G10L15/08 |
代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 王荔 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关键词 改进 麦克风 阵列 远场拾音 方法 | ||
本发明公开了一种基于关键词改进麦克风阵列远场拾音的方法,在关键词被关键词识别引擎监测到后,首先对缓存的单帧音源方位进行聚类运算获得可信度较高的音源方位,然后使用信号包络最大值计算远场拾音算法的输入信号增益,再将设备切换到唤醒状态;在唤醒状态下,算法包含输入信号增益调整、波束形成、噪声抑制、混响消除、自动增益控制等,此时自动增益控制可以设置较小的调整范围,避免放大作为背景噪声的低幅值信号,实现在监测到目标关键词时,根据关键词确定出唤醒状态下的音源方向和输入信号幅值增益,从而提高麦克风阵列远场拾音的语音增强效果。
技术领域
本发明涉及语音识别技术领域,特别涉及基于关键词改进麦克风阵列远场拾音的方法。
背景技术
近年来人工智能呈现爆发式增长,语音交互是人工智能的一个重要领域,而远场语音友好的人机交互方式逐渐成为语音交互的主导方式,如智能音箱、车载语音等;麦克风阵列和远场拾音算法为语音交互提供的高质量语音信号是语音交互的前提。
目前主流的远场拾音方式为:设备大部分时候在监听状态下工作,当关键词识别引擎监测到关键词后,设备进入唤醒状态;唤醒状态下,输入语音被识别为各种交互指令;在交互指令完成后,设备回到监听状态。一般情况下,监听状态下的拾音算法包括:回声消除、噪声抑制、混响消除、自动增益控制等;唤醒状态下,通常设备处于静音状态,拾音算法包括:音源定位、波束形成、噪声抑制、混响消除、自动增益控制等。
远场拾音的核心算法是回声消除和波束形成,噪声抑制和混响消除常作为回声消除和波束形成的后处理算法。回声消除算法已近比较成熟了,它通过采集设备自己输出给喇叭的信号作为参考信号,以此来消除麦克风拾取信号中包含的设备自身喇叭发出的声音、从而获得干净的外部输入信号。
波束形成算法是声呐和雷达的核心,旨在拾取目标方向的信号、而其他方向信号则被过滤掉,由于其他方向信号被过滤掉、则拾取到的目标方向信号的信噪比高、目标信号被增强;波束形成算法同样也是麦克风阵列远场拾音的核心,目前主要采用广义旁瓣消除器(GSC)及其改进算法,它需要音源定位算法为它指定期望拾取信号的方向。
音源定位问题分为移动音源定位和固定音源定位,大多数情况下的音源定位属于固定音源定位,如坐在沙发上与远场电视交互时的音源定位,以及车载语音的音源定位等,本专利处理的音源定位针对的就是固定音源。
现在的音源定位算法通常指单帧的音源定位,基本原理是不同方向的信号到达两个麦克风的时间差不同,而通过广义互相关理论可以计算出两个麦克风拾取信号的时间差,典型算法如GCC-PHAT及其衍生而来的CSR-PHAT,
单帧音源算法通常采用广义互相关最大的方向作为目标音源方向,广义互相关越大对应的方向为正确方向的可能性越大;单帧音源定位算法在信噪比低时,其定位精度低,甚至定位出的是噪声方向,比如:正在进行语音识别时的关门声“砰”,如果将这个方向传递给波束形成,那么波束形成拾取的信号是关门声“砰”。
增益控制分为远场拾音输入信号的增益控制和远场拾音输出信号的增益控制。输入信号的增益控制主要由拾音硬件的放大器完成,需要保证近场交互时语音信号幅值不能被削顶,这使得远场交互时语音幅值往往偏小,这个增益通常在拾音硬件校准后就固定不变了。
由于在远场交互时,输入信号幅值偏小,远场算法处理后的输出信号也就偏小,需要采用AGC/DRC等自动增益算法调节输出信号的幅值后再将信号送入识别引擎;但这种自动增益算法不能设置较大的调节范围,如果需要放大幅值小的信号,会导致同等水平的背景噪声的放大;而如果对输入信号采用自动增益算法会破坏语音输入信号通道间的相关性,使得基于相关性的多通道算法难以正常工作,如音源定位。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811058277.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:音频处理的方法和装置
- 下一篇:一种比例微分控制的混合信号自适应快速分离方法