[发明专利]快速识别性别的方法及装置、用于识别性别的算法模型的生成方法在审

申请号：	201911397525.2	申请日：	2019-12-30
公开（公告）号：	CN111105803A	公开（公告）日：	2020-05-05
发明（设计）人：	张艳;黄厚军;钱彦旻	申请（专利权）人：	苏州思必驰信息科技有限公司
主分类号：	G10L17/26	分类号：	G10L17/26;G10L17/18;G10L17/04;G10L17/02;G10L17/20
代理公司：	北京商专永信知识产权代理事务所(普通合伙) 11400	代理人：	黄谦;李彬彬
地址：	215123 江苏省苏州市苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	快速识别性别方法装置用于算法模型生成
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.用于识别性别的算法模型的生成方法，其特征在于，包括

获取短时音频进行预处理，确定训练数据集；

利用所述训练数据集对选用的神经网络模型进行训练；

对训练所得的神经网络模型进行定点化处理，生成用于进行性别识别的算法模型；其中，

获取短时音频进行预处理，确定训练数据集实现为包括：

使用语音识别模型对短时音频进行音素对齐处理；

对音素对齐处理后的短时音频数据进行特征值提取；

对提取出的特征值设置性别标签，形成训练数据集。

2.根据权利要求1所述的方法，其特征在于，所述定点化处理为8bit定点化处理。

3.根据权利要求2所述的识别方法，其特征在于，所述短时音频均为0.2s-1s长度的音频，其包括多个场景下的近场和远场拾音音频。

4.根据权利要求1至3任一项所述的方法，其特征在于，进行音素对齐处理所使用的语音识别模型为中英文混合语音识别模型。

5.根据权利要求4所述的方法，其特征在于，所述选用的神经网络模型为卷积神经网络，所述特征值为fbank特征，所述卷积神经网络的网络结构为：8通道卷积层-selu()-8通道卷积层-selu()-maxpooling层-16通道卷积层-selu()-16通道卷积层-selu()-maxpooling层-线性层-线性层-线性层，softmax loss。

6.快速识别性别的方法，其特征在于，包括

获取实时音频数据，通过训练好的用于性别识别的神经网络模型对所述实时音频数据进行识别，确定发音人的性别，其实现为包括

使用语音识别模型对获取的实时音频数据进行音素对齐处理；

对音素对齐处理后的实时音频数据进行特征值提取；

对提取出的特征值进行跳帧处理；

将跳帧处理后的特征值输入所述神经网络模型，根据所述神经网络模型输出的性别预测概率，确定发音人的性别；

其中，所述神经网络模型为利用权利要求1至5任一项所述的方法训练生成的用于性别识别的算法模型。

7.根据权利要求6所述的方法，其中，所述对提取出的特征值进行跳帧处理的跳帧幅度为6帧。

8.快速识别性别的装置，其特征在于，包括

用于性别识别的算法模型，其中，所述算法模型通过权利要求1至5任一项所述的方法训练生成；和

识别模块，用于在获取到实时音频数据时，通过所述算法模型对所述音频数据进行识别处理，确定发音者的性别，其实现为包括

对齐处理单元，用于使用语音识别模型对获取的实时音频数据进行音素对齐处理；