[发明专利]快速识别性别的方法及装置、用于识别性别的算法模型的生成方法在审
申请号: | 201911397525.2 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111105803A | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 张艳;黄厚军;钱彦旻 | 申请(专利权)人: | 苏州思必驰信息科技有限公司 |
主分类号: | G10L17/26 | 分类号: | G10L17/26;G10L17/18;G10L17/04;G10L17/02;G10L17/20 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;李彬彬 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 快速 识别 性别 方法 装置 用于 算法 模型 生成 | ||
本发明公开一种快速识别性别的方法,其包括获取实时音频数据,通过训练好的用于性别识别的神经网络模型对实时音频数据进行识别,确定发音人的性别。本发明还公开了快速识别性别的装置及模型训练方法。本发明公开的方案采用短时音频进行模型训练,并且在模型训练过程中采用了音素对齐和定点化处理,因而在实际应用阶段,对获取的实时音频,需要首先进行音素对齐处理,以有效去除静音干扰,之后可以对实时音频进行跳帧处理,以大幅提高性别识别的速率,因而整个识别方法在准确率和速率上均得到保障。
技术领域
本发明涉及智能语音技术领域,特别是一种快速识别性别的方法及装置以及一种用于识别性别的算法模型的生成方法。
背景技术
近年来,随着智能语音技术的发展,基于智能语音的产品层出不穷。有些产品场景下需要对用户的性别进行区分,以做出符合用户需求的响应。基于此,如何在用户对话中准确识别对象的性别,就显得至关重要。目前已经市面上较成熟的性别识别技术都是基于人脸识别的,基于语音的性别识别技术,业内也提出了一些实现方案,比如基于SVM算法或神经网络进行性别识别,但这些现有方案普遍要求测试人说话时长很长,而且不间断,而且预测时长很长。这对用户来说是有很大难度的,不利于产品的落地,更不利用用户获得很好的产品体验。
发明内容
为了克服现有方案的上述缺陷,发明人在算法训练方面做了大量尝试和研究,最终提出了能够利用短时音频对用户性别进行更快速的识别的解决方案。
根据本发明的一个方面,提供了一种用于识别性别的算法模型的生成方法,其包括
获取短时音频进行预处理,确定训练数据集;
利用所述训练数据集对选用的神经网络模型进行训练;
对训练所得的神经网络模型进行定点化处理,生成用于进行性别识别的算法模型;其中,
获取短时音频进行预处理,确定训练数据集实现为包括:
使用语音识别模型对短时音频进行音素对齐处理;
对音素对齐处理后的短时音频数据进行特征值提取;
对提取出的特征值设置性别标签,形成训练数据集。
根据本发明的第二个方面,提供了一种快速识别性别的方法,其包括
获取实时音频数据,通过训练好的用于性别识别的神经网络模型对所述实时音频数据进行识别,确定发音人的性别,其实现为包括
使用语音识别模型对获取的实时音频数据进行音素对齐处理;
对音素对齐处理后的实时音频数据进行特征值提取;
对提取出的特征值进行跳帧处理;
将跳帧处理后的特征值输入所述神经网络模型,根据所述神经网络模型输出的性别预测概率,确定发音人的性别;
其中,所述神经网络模型为利用上述的方法训练生成的用于性别识别的算法模型。
根据本发明的第三个方面,提供了一种快速识别性别的装置,其包括
用于性别识别的算法模型,其中,所述算法模型通过上述的用于识别性别的算法模型的生成方法训练生成;和
识别模块,用于在获取到实时音频数据时,通过所述算法模型对所述音频数据进行识别处理,确定发音者的性别,其实现为包括
对齐处理单元,用于使用语音识别模型对获取的实时音频数据进行音素对齐处理;
特征提取单元,用于对音素对齐处理后的实时音频数据进行特征值提取;
跳帧处理单元,用于对提取出的特征值进行跳帧处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司,未经苏州思必驰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911397525.2/2.html,转载请声明来源钻瓜专利网。