[发明专利]一种基于多命令词的语音唤醒方法及其系统在审
申请号: | 202010672496.2 | 申请日: | 2020-07-14 |
公开(公告)号: | CN111862973A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 王蒙;姜黎;胡奎;付志勇 | 申请(专利权)人: | 杭州芯声智能科技有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L25/24;G10L25/39;G06N3/04;G06N3/08;G10L25/45 |
代理公司: | 广州凯东知识产权代理有限公司 44259 | 代理人: | 梁灵周 |
地址: | 310000 浙江省杭州市经济技术开*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 命令 语音 唤醒 方法 及其 系统 | ||
1.一种基于多命令词的语音唤醒方法,其特征在于,包括以下步骤:
a、接收语音数据,进行CGA模型训练,获取优选神经网络参数;
b、接收语音数据,对每一帧数据进行预处理,获取可供训练的数据,并将数据输入CGA神经网络;
c、进行CGA神经网络训练,输出预测概率值;
d、对输出的预测概率值进行解码、计算,获取关键词检测结果,并反馈。
2.根据权利要求1所述的基于多命令词的语音唤醒方法,其特征在于,所述步骤a包括以下步骤:
a10、接收语音数据,对每一帧数据进行预处理,获取可供训练的数据;
a20、进行CGA神经网络训练,输出预测概率值;
a30、将预测概率值与期望值进行对比,以交叉熵作为损失函数,计算出最终损失值loss,并进行反向传播。
3.根据权利要求2所述的基于多命令词的语音唤醒方法,其特征在于,所述步骤a10和步骤b中的预处理,包括以下步骤:
y10、对接收的语音数据进行预加重,其中预加重因子为0.97;
y20、基于汉明窗进行加窗,汉明窗函数为:
y30、针对每一帧数据,提取40个特征,并将40个特征输入CGA神经网络。
4.根据权利要求3所述的基于多命令词的语音唤醒方法,其特征在于,所述步骤y30中提取特征包括以下步骤:
y301、通过短时快速傅里叶变换(FFT),将信号分离到不同的子带;
y302、计算出不同子带的能量;
y303、基于梅尔滤波函数生成相应的梅尔滤波器,并对不同子带进行滤波,其中,梅尔滤波函数为:
y304、根据下列公式提取特征,得到可供训练的数据:
5.根据权利要求2所述的基于多命令词的语音唤醒方法,其特征在于,所述步骤c和步骤a20中的CGA神经网络训练,包括以下步骤:
x10、接收所提取的特征,利用卷积神经网络进行卷积,得到CNN层的输出特征;
x20、针对CNN层的输出特征,结合历史状态进行记忆、更新和重置,得到GRU当前帧的状态;
x30、经Attention层变换,获取一个重要性权重;
x40、接收该权重,与GRU当前帧的状态进行内积,得到预测概率值。
6.根据权利要求5所述的基于多命令词的语音唤醒方法,其特征在于,所述步骤x10包括以下步骤:
x101、对应特征数量,生成大小固定的等量卷积核;
x102、基于每一个卷积核,对特征进行内积;
x103、根据指定的步进进行卷积;
x104、拼接卷积核内积的结果,得到CNN层的输出特征。
7.根据权利要求1所述的基于多命令词的语音唤醒方法,其特征在于,所述步骤d包括以下步骤:
d10、预设定测试阈值为0.9;
d20、获取连续20帧的预测概率值,并解码;
d30、判断连续20帧的预测概率值是否大于0.9的测试阈值,如果是,则判定检测到关键词,反馈唤醒信号;反之,则未检测到关键词。
8.一种基于多命令词的语音唤醒系统,其特征在于,包括数据预处理模块、神经网络训练模块以及后处理反馈模块,其中:
数据预处理模块,用于将收集到的语音数据进行预处理使其数据符合神经网络的计算需求;
神经网络训练模块,用于经CNN层、GRU层、Attention层分别进行内积、卷积、变换等操作后,获取预测概率值;
后处理反馈模块,用于累计预测概率值的大小和次数,判断预测概率值是否大于设定的测试阈值,并反馈唤醒信号。
9.根据权利要求8所述的基于多命令词的语音唤醒系统,其特征在于,所述数据预处理模块包括预加重子模块、加窗子模块、傅里叶变换子模块、能量计算子模块、梅尔滤波子模块以及特征提取子模块,其中:
预加重子模块,用于对接收的语音数据进行预加重;
加窗子模块,基于汉明窗进行加窗;
傅里叶变换子模块,用于通过短时快速傅里叶变换(FFT),将信号分离到不同的子带;
能量计算子模块,用于计算出不同子带的能量;
梅尔滤波子模块,基于梅尔滤波函数生成相应的梅尔滤波器,并对不同子带进行滤波;
特征提取子模块,用于根据公式提取特征,得到可供训练的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州芯声智能科技有限公司,未经杭州芯声智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010672496.2/1.html,转载请声明来源钻瓜专利网。