[发明专利]一种建立性别识别模型的方法及性别识别方法在审
申请号: | 201911313441.6 | 申请日: | 2019-12-19 |
公开(公告)号: | CN111091840A | 公开(公告)日: | 2020-05-01 |
发明(设计)人: | 王磊 | 申请(专利权)人: | 浙江百应科技有限公司 |
主分类号: | G10L17/26 | 分类号: | G10L17/26;G10L17/02;G10L17/18;G10L17/04 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 311121 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 建立 性别 识别 模型 方法 | ||
1.一种建立性别识别模型的方法,其特征是,所述方法包括:
收集语料,对所述语料进行男女声音的打标;
提取所述语料中的mfcc和filterbank特征;
根据所述语料中的mfcc和filterbank特征,对待训练的ResCNN神经网络模型进行神经网络训练;
将所述训练好的ResCNN神经网络模型作为性别识别模型。
2.根据权利要求1所述的一种基于d-vector建立性别识别模型的方法,其特征是,所述对待训练的ResCNN神经网络模型进行神经网络训练还包括:
使用softmax作为ResCNN神经网络模型的输出层函数,交叉熵作为损失函数,利用随机梯度下降算法进行神经网络训练。
3.一种基于上述权利要求1-2任一项所述建立性别识别模型的方法的性别识别方法,其特征是,所述性别识别方法包括:
获取待识别语音文件,对所述待识别语音文件进行vad预处理,根据静音部分将所述待识别语音文件切分成至少一份音频;
将所述若干份音频转换成域谱矩阵,提取所述至少一份音频特征输入所述性别识别模型;
所述性别识别模型隐藏层最后一层的输出结果为所述至少一份音频的性别识别结果,所述性别识别结果为若干份d-vector;
取所述至少一份d-vector的平均值作为待识别语音文件的映射;
将所述至少一份d-vector的平均值与d-vector1、d-vector2作余弦相似度比较,输出相似度高的结果,所述d-vector1、d-vector2分别为男性和女性声纹的映射;
根据输出结果,进行性别打标。
4.根据权利要求3所述的一种性别识别方法,其特征是,所述方法还包括:在时间频域上,切除待识别语音的静音部分,获得切分后的至少一份音频。
5.根据权利要求3所述的一种性别识别方法,其特征是,所述输出相似度高的结果为输出d-vector1或输出d-vector2,所述d-vector1对应男性声纹的映射,所述d-vector2对应女性声纹的映射。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江百应科技有限公司,未经浙江百应科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911313441.6/1.html,转载请声明来源钻瓜专利网。