[发明专利]一种基于GAN的说话人语音特征训练方法、装置和设备在审
申请号: | 202010130403.3 | 申请日: | 2020-02-28 |
公开(公告)号: | CN111341304A | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 陈昊亮;许敏强 | 申请(专利权)人: | 广州国音智能科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L21/0208 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王兆林 |
地址: | 510000 广东省广州市黄埔区科学城掬泉*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 gan 说话 人语 特征 训练 方法 装置 设备 | ||
本申请公开了一种基于GAN的说话人语音特征训练方法、装置和设备,在对说话人语音数据进行常规去噪处理之后,对得到的第一去噪语音数据济宁特征提取,再将得到的第一语音特征数据输入到预置GAN网络的生成器中,利用掩膜值对语音第一去噪语音数据进行二次去噪,得到第二去噪语音数据,利用第二去噪语音数据进行语音特征训练和识别,有效提高了说话人语音识别的准确率,解决了现有的语音识别方式识别准确率不高的技术问题。
技术领域
本申请涉及语音处理技术领域,尤其涉及一种基于GAN的说话人语音特征训练方法、装置和设备。
背景技术
语音识别是同一说话人鉴定的重要手段,现有的说话人声纹鉴定是获取说话人语音数据,对说话人语音数据进行去噪处理之后,进行语音特征提取,然后通过预设语音识别模型进行语音识别,但是现有的语音识别方式识别准确率不高,因此,进一步提高说话人语音识别的准确率仍是本领域技术人员亟待解决的技术问题。
发明内容
本申请提供了一种基于GAN的说话人语音特征训练方法、装置和设备,用于解决现有的语音识别方式识别准确率不高的技术问题。
有鉴于此,本申请第一方面提供了一种基于GAN的说话人语音特征训练方法,包括:
通过录音设备获取说话人语音数据;
对所述说话人语音数据进行常规去噪处理,得到第一去噪语音数据;
对所述第一去噪语音数据进行特征提取,得到第一语音特征数据;
将所述第一语音特征数据输入到预置GAN网络的生成器中,输出所述第一语音特征数据对应的第二语音特征数据的理想掩膜值,所述理想掩膜值为所述第二语音特征数据与所述第一语音特征数据的比值;
根据所述理想掩膜值确定所述说话人语音的第二去噪语音数据;
将所述第二去噪语音数据输入预置训练网络中进行语音特征训练。
可选地,所述对所述说话人语音数据进行常规去噪处理,得到第一去噪语音数据,包括:
对所述说话人语音数据进行基于深度循环神经网络的语音去噪处理,得到第一去噪语音数据。
可选地,所述对所述第一去噪语音数据进行特征提取,得到第一语音特征数据,包括:
对所述第一去噪语音数据进行MFCC特征提取,得到第一语音特征数据。
可选地,所述对所述第一去噪语音数据进行特征提取,得到第一语音特征数据之后,所述将所述第一语音特征数据输入到预置GAN网络的生成器中,输出所述第一语音特征数据对应的第二语音特征数据的理想掩膜值之前,还包括:
计算所述第一语音特征数据的均方差归一化处理值;
相应地,所述将所述第一语音特征数据输入到预置GAN网络的生成器中,输出所述第一语音特征数据对应的第二语音特征数据的理想掩膜值,包括:
将所述第一语音特征数据的均方差归一化处理值输入到预置GAN网络的生成器中,输出所述第一语音特征数据对应的第二语音特征数据的理想掩膜值。
可选地,所述将所述第一语音特征数据输入到预置GAN网络的生成器中,输出所述第一语音特征数据对应的第二语音特征数据的理想掩膜值,之前还把包括:
对初始GAN网络进行训练和测试,直到所述初始GAN网络收敛,得到所述预置GAN网络。
本申请第二方面提供了一种基于GAN的说话人语音特征训练装置,包括:
获取单元,用于通过录音设备获取说话人语音数据;
第一去噪单元,用于对所述说话人语音数据进行常规去噪处理,得到第一去噪语音数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州国音智能科技有限公司,未经广州国音智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010130403.3/2.html,转载请声明来源钻瓜专利网。