[发明专利]语音唤醒方法和装置在审
申请号: | 202011630785.2 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112767952A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 薛少飞 | 申请(专利权)人: | 苏州思必驰信息科技有限公司 |
主分类号: | G10L17/22 | 分类号: | G10L17/22;G10L17/18;G10L17/04;G10L17/02 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 唤醒 方法 装置 | ||
1.一种语音唤醒方法,包括:
将原始音频输入至使用sinc函数来构造带通滤波器,其中,所述滤波器形成特殊卷积层,所述滤波器的参数为最高截止频率和最低截止频率;
将经过所述滤波器处理后的音频依次经过多重处理并最终输入到第一DNN层,其中,所述第一DNN层与记忆块连接,所述记忆块种存储有从当前时刻往前N帧至往后M帧的数据;
将所述记忆块种存储的数据与所述第一DNN层的输出数据求和之后经过第一激活函数处理后作为第二DNN层的输入,其中,所述第二DNN层的数量和所述记忆块的数量为大于等于1的自然数;
将最后一个第二DNN层输出的数据经过第二激活函数的处理得到最终输出后验得分。
2.根据权利要求1所述的方法,在将最后一个第二DNN层输出的数据经过第二激活函数的处理得到最终输出后验得分之后,所述方法包括:
基于所述后验得分和预设唤醒阈值判断所述原始音频是否能够唤醒设备。
3.根据权利要求1所述的方法,其中,与所述第一DNN层连接的记忆块的表达式如下:
其中,中h(t-i)和h(t+j)分别为t-i时刻和t+j时刻该DNN层的值,ai和cj分别为相应的权重系数。
4.根据权利要求3所述的方法,其中,所述第一DNN层与所述记忆块形成,和/或所述第二DNN层与后续的记忆块,形成DNN-记忆块结构,所述DNN-记忆块结构的输出为:
其中,f为激活函数,包括Relu函数,w和w~为需要学习的权重,b为偏置。
5.根据权利要求1所述的方法,其中,所述将原始音频输入至使用sinc函数来构造带通滤波器包括:
对所述原始音频进行分帧,首次分帧时以长度为a毫秒的音频数据为一帧,后续分帧时以b毫秒获得下一帧;
将分帧后的每一帧数据作为所述滤波器的原始输入。
6.根据权利要求1-5中任一项所述的方法,其中,所述sinc函数构造的带通滤波器形成sinc层,所述sinc层包括使用如下方式实现:
令x[n]为某一帧的原始音频信号,h[n]为长度为L的一维卷积核,则卷积后的输出为:y[n]=x[n]*h[n];
其中,h[n]=(2f2sinc(2πf2n)-2f1sinc(2πf1n))w[n],
f1和f2分别为网络需要学习的最高截止频率和最低截止频率,若原始音频的采样频率为fs,则f1和f2在初始化时,只需在[0,fs/2]中随机初始化即可;
w[n]为窗函数,一般取Hamming窗,即w[n]=0.54-0.46cos(2πn/L);
sinc函数定义为sinc(x)=sin(x)/x。
7.根据权利要求6所述的方法,其中,所述多重处理包括:
池化处理、归一化处理以及激活函数Relu处理。
8.一种新型网络结构,包括:
Sinc层,第一DNN层和与第一DNN层连接的记忆块,第二DNN层和与第二DNN层连接的记忆块,以及输出层,其中,所述第二DNN层的数量和所述记忆块的数量为大于等于1的自然数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司,未经苏州思必驰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011630785.2/1.html,转载请声明来源钻瓜专利网。