[发明专利]音频信号的检测方法及装置有效
申请号: | 201910696493.X | 申请日: | 2019-07-30 |
公开(公告)号: | CN110277093B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 纪璇;于蒙;陈杰;郑脊萌;苏丹;俞栋 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/18 | 分类号: | G10L15/18;G10L15/22;G10L25/51 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 陈世华;王琦 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 信号 检测 方法 装置 | ||
1.一种音频信号的检测方法,其特征在于,包括:
获取采集到的目标音频信号;
从所述目标音频信号中获取K个目标方向的波束信号,K为正整数;
将所述K个目标方向的波束信号和所述目标音频信号,作为K+1路的输入信号,输入音频信号检测模型,所述音频信号检测模型包括attention层、特征投影层和唤醒词检测子模型,依次执行以下处理:
所述attention层分别为K+1路的输入信号分配对应的权重,以及分别对K+1路的输入信号进行特征提取,得到每路输入信号的信号特征;
根据每路输入信号的信号特征和对应的权重,通过所述特征投影层,得到一路音频特征;
将所述音频特征输入所述唤醒词检测子模型,确定是否检测到目标唤醒词;
在从所述音频特征中检测到所述目标唤醒词的情况下,启动目标设备,其中,所述目标设备是在接收到所述目标唤醒词时启动的设备。
2.根据权利要求1所述的方法,其特征在于,所述分别为K+1路的输入信号分配对应的权重包括:
根据所述K个目标方向的波束信号和所述目标音频信号的信噪比,分别为所述K个目标方向的波束信号和所述目标音频信号分配权重,其中,所述K个目标方向的波束信号和所述目标音频信号中,信噪比越高的信号所对应的权重越大。
3.根据权利要求1所述的方法,其特征在于,所述音频信号检测模型是使用从音频样本中获取的所述K个目标方向的波束样本和所述音频样本,对初始音频信号检测模型进行训练得到的模型,所述音频样本是标注了所述目标唤醒词以及所述目标唤醒词所在方向的音频信号。
4.根据权利要求1所述的方法,其特征在于,所述唤醒词检测子模型包括唤醒检测层和唤醒决策层,所述将所述音频特征输入所述唤醒词检测子模型,确定是否检测到目标唤醒词包括:
将所述音频特征作为输入特征,输入所述唤醒检测层,得到所述目标音频信号对应的得分;
根据所述得分,通过所述唤醒决策层,确定是否检测到所述目标唤醒词。
5.根据权利要求3所述的方法,其特征在于,在将所述K个目标方向的波束信号和所述目标音频信号作为K+1路的输入信号输入到所述attention层之前,所述方法还包括:
将所述K个目标方向的波束样本和所述音频样本,作为K+1路的输入信号,输入初始attention层,得到所述初始attention层输出的音频特征样本;
将所述音频特征样本作为输入特征,输入初始唤醒词检测子模型,得到所述初始唤醒词检测子模型输出的检测结果样本,其中,所述初始音频信号检测模型包括所述初始attention层和所述初始唤醒词检测子模型;
根据所述检测结果样本、所述音频样本所标注的所述目标唤醒词以及所述目标唤醒词所在方向以及目标损失函数,确定所述音频样本对应的损失值;
根据所述损失值,调整所述初始attention层的模型参数和所述初始唤醒词检测子模型的模型参数,直至所述音频样本对应的所述损失值小于目标损失值,得到所述音频信号检测模型。
6.根据权利要求1所述的方法,其特征在于,所述获取采集到的目标音频信号包括:
通过配置的麦克阵列采集多个音频信号,其中,所述麦克阵列包括多个麦克,所述多个麦克与所述多个音频信号一一对应;
将所述多个音频信号合成为所述目标音频信号。
7.根据权利要求1所述的方法,其特征在于,所述获取采集到的目标音频信号包括:
通过配置的麦克阵列采集多个音频信号,其中,所述麦克阵列包括多个麦克,所述多个麦克与所述多个音频信号一一对应;
从所述多个音频信号中获取一个音频信号作为所述目标音频信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910696493.X/1.html,转载请声明来源钻瓜专利网。