[发明专利]一种语音唤醒方法及装置在审
申请号: | 201910164627.3 | 申请日: | 2019-03-05 |
公开(公告)号: | CN109872713A | 公开(公告)日: | 2019-06-11 |
发明(设计)人: | 王维;杨汉丹;王广新 | 申请(专利权)人: | 深圳市友杰智新科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16;G10L15/26;G10L21/0208 |
代理公司: | 深圳市深科信知识产权代理事务所(普通合伙) 44422 | 代理人: | 彭光荣 |
地址: | 518000 广东省深圳市南山区招商*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 神经网络模型 语音特征 唤醒 增量式 过滤 采集声音数据 训练神经网络 语音识别技术 计算复杂度 声音数据 样本数据 误触发 对正 减小 送入 | ||
本发明涉及语音识别技术领域,公开了一种语音唤醒方法及装置,该方法包括:采集声音数据,提取所述声音数据中的语音;提取每一帧所述语音的语音特征;将所述语音特征送入神经网络模型进行识别,所述神经网络模型采用增量式方法进行训练;根据识别结果对所述语音进行过滤;通过增量式训练神经网络模型,降低了对正样本数据量的需求,降低了计算复杂度,减小了模型体积;并能有效过滤误触发数据,提高了语音唤醒效率。
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音唤醒方法及装置。
背景技术
目前,语音唤醒的应用场景越来越广泛,例如机器人、手机、可穿戴设备、智能家居、车载等。几乎很多带有语音功能的设备都会需要语音唤醒技术作为人和机器互动的一个开始或入口。不同的产品会有不同的唤醒词,用户可以通过说出特定的唤醒词来激活设备然后进行下一步交互操作,现有效果较好的唤醒设备一般存在模型体积大,计算复杂度高,更换唤醒词不容易等问题。
发明内容
本发明的主要目的在于提出一种语音唤醒方法及装置,通过增量式训练神经网络模型,降低了对正样本数据量的需求,降低了计算复杂度,减小了模型体积;并能有效过滤误触发数据,提高了语音唤醒效率。
为实现上述目的,本发明提供的一种语音唤醒方法,包括:
采集声音数据,提取所述声音数据中的语音;
提取每一帧所述语音的语音特征;
将所述语音特征送入神经网络模型进行识别,所述神经网络模型采用增量式方法进行训练;
根据识别结果对所述语音进行过滤。
可选地,所述采集声音数据,提取所述声音数据中的语音包括:
通过麦克风采集声音数据,并对所述声音数据进行缓存;
将缓存中的声音数据进行分帧;
通过语音活动检测模块对每一帧声音数据进行识别,若该帧声音数据为语音,则保留在所述缓存中,若该帧声音数据为非语音,则从所述缓存中去除该帧声音数据。
可选地,所述语音特征为梅尔频率倒谱系数MFCC;所述神经网络模型为循环神经网络RNN。
可选地,所述神经网络模型采用增量式方法进行训练具体为:
通过负样本和正样本初始化训练模型,所述负样本的数量大于所述正样本的数量;
通过初始化后的训练模型进行实时测试,并保存误触发数据;
将所述误触发数据融合到负样本数据集中进行再次训练,并重复以上过程。
可选地,所述根据识别结果对所述语音进行过滤具体为:
通过神经网络模型计算所述语音触发的概率数据;
根据预设的概率门限、预设的最少触发次数和最小触发间隔对所述语音进行过滤。
作为本发明的另一方面,提供的一种语音唤醒装置,包括:
采集模块,用于采集声音数据,提取所述声音数据中的语音;
特征提取模块,用于提取每一帧所述语音的语音特征;
识别模块,用于将所述语音特征送入神经网络模型进行识别,所述神经网络模型采用增量式方法进行训练;
过滤模块,用于根据识别结果对所述语音进行过滤。
可选地,所述采集模块包括:
采集单元,用于通过麦克风采集声音数据,并对所述声音数据进行缓存;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市友杰智新科技有限公司,未经深圳市友杰智新科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910164627.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电子谱曲器
- 下一篇:一种提高语音识别准确性的方法、电子设备及存储介质