[发明专利]基于深度自编码网络的说话人性别自动识别方法及系统有效

申请号：	201810402685.0	申请日：	2018-04-28
公开（公告）号：	CN109545227B	公开（公告）日：	2023-05-09
发明（设计）人：	王志锋;段苏容;左明章;田元;闵秋莎;夏丹;叶俊民;陈迪;罗恒;姚璜	申请（专利权）人：	华中师范大学
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/04;G10L17/18;G10L25/24
代理公司：	北京金智普华知识产权代理有限公司 11401	代理人：	杨采良
地址：	430079 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于声纹识别技术领域，公开了一种基于深度自编码网络的说话人性别自动识别方法及系统，利用与注册说话人及信道均无关的语音信号训练UBM通用背景模型；提取注册数据的i‑vector；提取测试数据的i‑vector；训练深度自编码网络；模式匹配与识别，并进行模型评估。本发明将深度自编码网络应用于说话人性别识别中，将深度自编码网络强大的学习能力用于表征不同性别的说话人特征，不仅实现了特征的再提取，同时降低了特征维数，从而降低了分类运算时的复杂度。本发明提出的方法可进一步推广应用于说话人识别，尝试提高说话人识别系统的鲁棒性。
搜索关键词：	基于深度编码网络说话人性自动识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于深度自编码网络的说话人性别自动识别方法，其特征在于，所述基于深度自编码网络的说话人性别自动识别方法包括：训练阶段，首先训练集语音信号进行预处理及Mel倒谱系数特征提取，后利用大量与特定说话人及信道无关的语音数据训练UBM通用背景模型；基于UBM通用背景模型和特定说话人的语音信号提取i‑vector；用提取出的i‑vector作为深度自编码网络的输入训练自编码器，进一步提炼特征，最后通过分类器实现不同说话人性别分类；测试阶段，用与训练阶段相同的方式对测试语音信号进行预处理及i‑vector提取，用训练好的深度自编码网络进行特征提炼和分类，后利用分类准确性、AUC、MCC三种评价标准评估模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华中师范大学，未经华中师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810402685.0/，转载请声明来源钻瓜专利网。

上一篇：一种语音识别方法、设备及计算机可读存储介质
下一篇：一种端到端说话人分割方法及系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度自编码网络的说话人性别自动识别方法及系统有效

专利文献下载