[发明专利]基于语音图谱和深度学习的实时性别识别方法在审

申请号：	201910612980.3	申请日：	2019-07-09
公开（公告）号：	CN110211569A	公开（公告）日：	2019-09-06
发明（设计）人：	王磊	申请（专利权）人：	浙江百应科技有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L25/30;G10L25/51;G10L25/78
代理公司：	北京科亿知识产权代理事务所(普通合伙) 11350	代理人：	汤东凤
地址：	311121 浙江省杭州市余***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	性别识别语音图谱数字特征音频流建立模型实时获取性别预测学习算法语音对话语音识别准确率静音切除学习转换
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及语音识别领域，尤其涉及于语音图谱和深度学习的实时性别识别方法，包括以下步骤：S1：基于深度学习算法建立模型；S2：语音对话过程中实时获取音频流；S3：将获取的音频流通过VAD切除静音部分；S4：通过fbank提取音频的数字特征；S5：将数字特征转换成语音图谱，将语音图谱通过模型进行性别预测，得到性别识别结果。本发明针对语音可以实时性别识别，同时提升了性别识别的准确率。

技术领域

本发明涉及语音识别领域，尤其涉及基于语音图谱和深度学习的实时性别识别方法。

背景技术

随着大数据和深度学习技术的发展，语音识别和声纹识别越来越多的运用于各行各业，包括目标任务确认，语音开锁，智能语音机器人等行业，还包括智能人机交互，声控机器人，智能家居语音唤醒等，随着深度学习技术的不断发展，声纹识别和语音识别技术已经出现了很多影响人们生活的产品，越来越大的影响了人类生活。

而在性别识别这块也有一些传统的方法尝试，例如：直接基于声音的基音频率差异，按男女不同范围的基音频率识别男女；采用多个传统模型融合的方式去实现，特征不断变换多个融合模型共同发挥作用。但是这些方法存在以下问题：基音频率差异这种方式，因为男女本身的基音频率就存在交叉，而且由于个体的特殊性导致准确率特别低；多模型融合方式的过程往往特别复杂，模型可解释性不强，而且预测时间特别长，没办法做到实时的性别识别；对话的音频信息往往含有一些外界噪音和背景音，或者是第二个人的说话信息以上方法在这个场景下准确率低下；对话中含有大量的静音部分(包括对话中单声道填充和对话人本身的停顿部分)，会影响识别的准确率。

发明内容

为解决上述问题，本发明提出涉及基于语音图谱和深度学习的实时性别识别方法。

基于语音图谱和深度学习的实时性别识别方法，包括以下步骤：

S1：基于深度学习算法建立模型；

S2：语音对话过程中实时获取音频流；

S3：将获取的音频流通过VAD切除静音部分；

S4：通过fbank提取音频的数字特征；

S5：将数字特征转换成语音图谱，将语音图谱通过模型进行性别预测，得到性别识别结果。

优选的，所述基于深度学习算法建立模型包括以下步骤：

S11：语音图谱结合打标标签生成样本信息，按照设定比例划分训练集合和测试集合；

S12：对语音图谱作归一化和正则化处理，保存样本集合的均值和方差信息；

S13：将训练集合输入给下游的resnet网络，重新训练网络最后一层和softmax层，多次循环，不断拟合神经网络的相关参数，直到损失达到阀值或者迭代次数达到预设值；