[发明专利]一种语音唤醒方法及装置在审
申请号: | 201910164627.3 | 申请日: | 2019-03-05 |
公开(公告)号: | CN109872713A | 公开(公告)日: | 2019-06-11 |
发明(设计)人: | 王维;杨汉丹;王广新 | 申请(专利权)人: | 深圳市友杰智新科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16;G10L15/26;G10L21/0208 |
代理公司: | 深圳市深科信知识产权代理事务所(普通合伙) 44422 | 代理人: | 彭光荣 |
地址: | 518000 广东省深圳市南山区招商*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 神经网络模型 语音特征 唤醒 增量式 过滤 采集声音数据 训练神经网络 语音识别技术 计算复杂度 声音数据 样本数据 误触发 对正 减小 送入 | ||
1.一种语音唤醒方法,其特征在于,包括:
采集声音数据,提取所述声音数据中的语音;
提取每一帧所述语音的语音特征;
将所述语音特征送入神经网络模型进行识别,所述神经网络模型采用增量式方法进行训练;
根据识别结果对所述语音进行过滤。
2.根据权利要求1所述的一种语音唤醒方法,其特征在于,所述采集声音数据,提取所述声音数据中的语音包括:
通过麦克风采集声音数据,并对所述声音数据进行缓存;
将缓存中的声音数据进行分帧;
通过语音活动检测模块对每一帧声音数据进行识别,若该帧声音数据为语音,则保留在所述缓存中,若该帧声音数据为非语音,则从所述缓存中去除该帧声音数据。
3.根据权利要求1所述的一种语音唤醒方法,其特征在于,所述语音特征为梅尔频率倒谱系数MFCC;所述神经网络模型为循环神经网络RNN。
4.根据权利要求1所述的一种语音唤醒方法,其特征在于,所述神经网络模型采用增量式方法进行训练具体为:
通过负样本和正样本初始化训练模型,所述负样本的数量大于所述正样本的数量;
通过初始化后的训练模型进行实时测试,并保存误触发数据;
将所述误触发数据融合到负样本数据集中进行再次训练,并重复以上过程。
5.根据权利要求4所述的一种语音唤醒方法,其特征在于,所述根据识别结果对所述语音进行过滤具体为:
通过神经网络模型计算所述语音触发的概率数据;
根据预设的概率门限、预设的最少触发次数和最小触发间隔对所述语音进行过滤。
6.一种语音唤醒装置,其特征在于,包括:
采集模块,用于采集声音数据,提取所述声音数据中的语音;
特征提取模块,用于提取每一帧所述语音的语音特征;
识别模块,用于将所述语音特征送入神经网络模型进行识别,所述神经网络模型采用增量式方法进行训练;
过滤模块,用于根据识别结果对所述语音进行过滤。
7.根据权利要求6所述的一种语音唤醒装置,其特征在于,所述采集模块包括:
采集单元,用于通过麦克风采集声音数据,并对所述声音数据进行缓存;
分帧单元,用于将缓存中的声音数据进行分帧;
提取单元,用于通过语音活动检测模块对每一帧声音数据进行识别,若该帧声音数据为语音,则保留在所述缓存中,若该帧声音数据为非语音,则从所述缓存中去除该帧声音数据。
8.根据权利要求6所述的一种语音唤醒装置,其特征在于,所述语音特征为梅尔频率倒谱系数MFCC;所述神经网络模型为循环神经网络RNN。
9.根据权利要求6所述的一种语音唤醒装置,其特征在于,所述神经网络模型采用增量式方法进行训练具体为:
通过负样本和正样本初始化训练模型,所述负样本的数量大于所述正样本的数量;
通过初始化后的训练模型进行实时测试,并保存误触发数据;
将所述误触发数据融合到负样本数据集中进行再次训练,并重复以上过程。
10.根据权利要求9所述的一种语音唤醒装置,其特征在于,所述过滤模块具体为:
通过神经网络模型计算所述语音触发的概率数据;
根据预设的概率门限、预设的最少触发次数和最小触发间隔对所述语音进行过滤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市友杰智新科技有限公司,未经深圳市友杰智新科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910164627.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电子谱曲器
- 下一篇:一种提高语音识别准确性的方法、电子设备及存储介质