[发明专利]快速识别性别的方法及装置、用于识别性别的算法模型的生成方法在审
申请号: | 201911397525.2 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111105803A | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 张艳;黄厚军;钱彦旻 | 申请(专利权)人: | 苏州思必驰信息科技有限公司 |
主分类号: | G10L17/26 | 分类号: | G10L17/26;G10L17/18;G10L17/04;G10L17/02;G10L17/20 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;李彬彬 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 快速 识别 性别 方法 装置 用于 算法 模型 生成 | ||
1.用于识别性别的算法模型的生成方法,其特征在于,包括
获取短时音频进行预处理,确定训练数据集;
利用所述训练数据集对选用的神经网络模型进行训练;
对训练所得的神经网络模型进行定点化处理,生成用于进行性别识别的算法模型;其中,
获取短时音频进行预处理,确定训练数据集实现为包括:
使用语音识别模型对短时音频进行音素对齐处理;
对音素对齐处理后的短时音频数据进行特征值提取;
对提取出的特征值设置性别标签,形成训练数据集。
2.根据权利要求1所述的方法,其特征在于,所述定点化处理为8bit定点化处理。
3.根据权利要求2所述的识别方法,其特征在于,所述短时音频均为0.2s-1s长度的音频,其包括多个场景下的近场和远场拾音音频。
4.根据权利要求1至3任一项所述的方法,其特征在于,进行音素对齐处理所使用的语音识别模型为中英文混合语音识别模型。
5.根据权利要求4所述的方法,其特征在于,所述选用的神经网络模型为卷积神经网络,所述特征值为fbank特征,所述卷积神经网络的网络结构为:8通道卷积层-selu()-8通道卷积层-selu()-maxpooling层-16通道卷积层-selu()-16通道卷积层-selu()-maxpooling层-线性层-线性层-线性层,softmax loss。
6.快速识别性别的方法,其特征在于,包括
获取实时音频数据,通过训练好的用于性别识别的神经网络模型对所述实时音频数据进行识别,确定发音人的性别,其实现为包括
使用语音识别模型对获取的实时音频数据进行音素对齐处理;
对音素对齐处理后的实时音频数据进行特征值提取;
对提取出的特征值进行跳帧处理;
将跳帧处理后的特征值输入所述神经网络模型,根据所述神经网络模型输出的性别预测概率,确定发音人的性别;
其中,所述神经网络模型为利用权利要求1至5任一项所述的方法训练生成的用于性别识别的算法模型。
7.根据权利要求6所述的方法,其中,所述对提取出的特征值进行跳帧处理的跳帧幅度为6帧。
8.快速识别性别的装置,其特征在于,包括
用于性别识别的算法模型,其中,所述算法模型通过权利要求1至5任一项所述的方法训练生成;和
识别模块,用于在获取到实时音频数据时,通过所述算法模型对所述音频数据进行识别处理,确定发音者的性别,其实现为包括
对齐处理单元,用于使用语音识别模型对获取的实时音频数据进行音素对齐处理;
特征提取单元,用于对音素对齐处理后的实时音频数据进行特征值提取;
跳帧处理单元,用于对提取出的特征值进行跳帧处理;
性别确定单元,用于将跳帧处理后的特征值输入所述算法模型,根据所述算法模型输出的性别预测概率,确定发音人的性别。
9.根据权利要求8所述的装置,其特征在于,所述跳帧处理单元中设置的跳帧幅度为6帧。
10.存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求6或7所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司,未经苏州思必驰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911397525.2/1.html,转载请声明来源钻瓜专利网。