[发明专利]语音交互系统的自动增益控制方法、装置及系统在审
申请号: | 202110878010.5 | 申请日: | 2021-07-30 |
公开(公告)号: | CN113555033A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 孙祥宇 | 申请(专利权)人: | 乐鑫信息科技(上海)股份有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L15/20;G10L15/22;G10L17/04;G10L17/20;G10L17/24 |
代理公司: | 北京市路盛律师事务所 11326 | 代理人: | 李海;郝聪慧 |
地址: | 201203 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 交互 系统 自动增益控制 方法 装置 | ||
1.一种语音交互系统的自动增益控制方法,其特征在于,包括:
接收语音信号;
通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;
调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;
基于所述检测到唤醒词的声音信号,计算所述语音交互系统中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。
2.根据权利要求1所述的自动增益控制方法,其特征在于,在所述通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号之后还包括:
针对每个不同音源的声音信号分别维护对应的FIFO队列;其中,所述FIFO队列的长度N的数值根据所述唤醒词的长度和唤醒词检测每帧长度确定;
针对每个不同音源的声音信号,分别按帧进行读取,计算每帧信号的幅值的绝对值的最大值,并将所述绝对值的最大值保存至所述FIFO队列中。
3.根据权利要求1所述的自动增益控制方法,其特征在于,在所述通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号之后还包括:
针对每个不同音源的声音信号分别维护对应的FIFO队列;其中,所述FIFO队列的长度N的数值根据所述唤醒词的长度和唤醒词检测每帧长度确定;
针对每个不同音源的声音信号,分别按帧进行读取,计算每帧信号的幅值的绝对值,并使用高斯窗与所述绝对值进行卷积,将进行卷积后的最大值保存至所述FIFO队列中。
4.根据权利要求2或3所述的自动增益控制方法,其特征在于,所述FIFO队列的长度N与所述唤醒词检测每帧长度的乘积,等于所述唤醒词的长度。
5.根据权利要求2或3所述的自动增益控制方法,其特征在于,所述计算所述语音交互系统中自动增益控制所需的增益包括:
计算所述检测到唤醒词的声音信号对应的FIFO队列中的最大值Amax,根据
计算所述语音交互系统中拾音设备所需的增益G;
其中,Aref为参考音频信号的幅值,所述参考音频信号为固定值。
6.根据权利要求5所述的自动增益控制方法,其特征在于,在所述计算所述语音交互系统中自动增益控制所需的增益之后还包括:
调节模拟增益至所需的增益G,如果模拟增益可调范围Ga小于所需的增益G,则将模拟增益调节至最大,调节数字增益为G-Ga。
7.根据权利要求6所述的自动增益控制方法,其特征在于,还包括:在检测到语音交互完成后,增益恢复为初始增益Ginit。
8.根据权利要求7所述的自动增益控制方法,其特征在于,所述初始增益Ginit为:在确定所述参考音频信号数值的情况下,保证拾音设备所拾取的音频数据不饱和所对应的增益。
9.根据权利要求1至3任一项所述的自动增益控制方法,其特征在于,所述唤醒词检测模型为预先使用delta-LFBE作为特征训练得到的模型。
10.一种语音交互系统的自动增益控制装置,其特征在于,包括:
接收模块,用于接收语音信号;
盲源分离模块,用于通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;
唤醒词检测模块,用于调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;
增益确定模块,用于基于所述检测到唤醒词的声音信号,计算所述语音交互系统中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于乐鑫信息科技(上海)股份有限公司,未经乐鑫信息科技(上海)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110878010.5/1.html,转载请声明来源钻瓜专利网。