[发明专利]一种基于多命令词的语音唤醒方法及其系统在审
申请号: | 202010672496.2 | 申请日: | 2020-07-14 |
公开(公告)号: | CN111862973A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 王蒙;姜黎;胡奎;付志勇 | 申请(专利权)人: | 杭州芯声智能科技有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L25/24;G10L25/39;G06N3/04;G06N3/08;G10L25/45 |
代理公司: | 广州凯东知识产权代理有限公司 44259 | 代理人: | 梁灵周 |
地址: | 310000 浙江省杭州市经济技术开*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 命令 语音 唤醒 方法 及其 系统 | ||
本发明公开了一种基于多命令词的语音唤醒方法,接收语音数据,进行CGA模型训练,获取优选神经网络参数;接收语音数据,对每一帧数据进行预处理,获取可供训练的数据,并将数据输入CGA神经网络;进行CGA神经网络训练,输出预测概率值;对输出的预测概率值进行解码、计算,获取关键词检测结果,并反馈。本发明还公开了一种基于多命令词的语音唤醒系统,包括数据预处理模块、神经网络训练模块以及后处理反馈模块。本发明大大减少了数据计算量,降低了生产成本。
技术领域
本发明涉及嵌入式系统语音检测技术,具体涉及一种基于多命令词的语音唤醒方法及其系统。
背景技术
通过识别语音信号反馈数据信号进行唤醒是时下电子时代急需的技术。
在现有技术中,通常在特征提取过程中采用了梅尔频率倒谱系数 (Mel-frequency cepstral coefficients)的方案,对麦克风收集到语音信号进行预加重、分帧、加窗,得到一帧一帧的语音信号,再通过短时快速傅里叶变换(FFT)、计算不同FFT子带的能量、梅尔滤波、dct变换、lifter变换后得到语音信号的梅尔特征(MFCC),将这些MFCC特征视为神经网络的输入来训练模型;神经网络则采用最原始的循环神经网络(GRU),将上一层输入的MFCC 特征通过循环神经网络(GRU)各个节点的计算逻辑得出每一帧语音信号的唤醒概率,并将每一帧的唤醒概率输入到下一层注意力机制层(attention)中进行计算,并得出最终的置信度。根据不同关键词的数目,置信度的标签数目也会不同,每个标签位置就代表一个不同的关键词,其置信度数值越大,该标签所代表关键词的概率越高;置信度数值一般在(0,1)区间范围内,1代表唤醒,0 代表未唤醒。
但上述现有技术中,存在以下几点缺陷:
1、帧长相对较短,使得语音帧的数目较多,计算量大大增加;
2、使用固定好的长度来训练,往往是根据经验来决定大小,既浪费训练数据,也易造成冗余;
3、采用MFCC特征进行训练,在计算完FFT子带的能量并做梅尔滤波之后,还要进行dct变换和lifter变换得到MFCC特征,致使训练时间增加;
4、现有技术采用GA模型,神经元个数较多、层数较深,使得计算量大大增加,进而导致生产成本增加;
5、现有技术在得到预测值后,用滑窗的机制来实现逐帧逐帧的判断,滑窗机制为每有一帧数据进入网络,便从窗长开始处重新计算到当前帧,所以GRU 及之后的部分需要多计算窗长-1次,耗费计算量过大。
发明内容
基于此,针对上述问题,有必要提出一种基于多命令词的语音唤醒方法及其系统,利用麦克风收集用户的声音,对收集到的声音进行实时检测,识别出用户的指令后对设备做出相对应的反馈和控制,本方案模型训练帧长更长,模型训练长度不同,提取特征的算法更优,模型更小巧,后处理判定机制更方便,一方面大大降低了计算量,有效降低了生产成本;另一方面,能够保持语音的连续稳定性。
本发明提供了一种基于多命令词的语音唤醒方法,其技术方案如下:
一种基于多命令词的语音唤醒方法,包括以下步骤:
a、接收语音数据,进行CGA模型训练,获取优选神经网络参数;
b、接收语音数据,对每一帧数据进行预处理,获取可供训练的数据,并将数据输入CGA神经网络;
c、进行CGA神经网络训练,输出预测概率值;
d、对输出的预测概率值进行解码、计算,获取关键词检测结果,并反馈。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州芯声智能科技有限公司,未经杭州芯声智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010672496.2/2.html,转载请声明来源钻瓜专利网。