[发明专利]基于人工智能的语音增强方法、服务器及存储介质有效
申请号: | 201910969019.X | 申请日: | 2019-10-12 |
公开(公告)号: | CN110853663B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 王健宗;赵峰 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L21/0216;G10L25/30;G06N3/0464;G06N3/0442;G06N3/048;G06N3/0475;G06N3/084;G06N3/094 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 语音 增强 方法 服务器 存储 介质 | ||
1.一种基于人工智能的语音增强方法,应用于服务器,其特征在于,所述方法包括:
获取步骤:获取预设数量的带噪语音及与各带噪语音对应的去噪语音,作为训练样本,将所述训练样本分为第一数据集、第二数据集及第三数据集;
构建步骤:构建生成式对抗网络,所述生成式对抗网络包括至少一个生成器和一个鉴别器;
第一训练步骤:将所述第一数据集输入所述鉴别器,以最小化鉴别器的损失函数值为目标调整鉴别器的参数,当鉴别器的损失函数值小于第一预设阈值时更新所述鉴别器的参数,得到第一鉴别器,再将第二数据集的带噪语音输入所述生成器,将输出的语音和该带噪语音输入所述第一鉴别器,利用反向传播算法更新第一鉴别器的参数;
第二训练步骤:将所述第三数据集的带噪语音输入所述生成器,将输出的语音及该带噪语音输入更新参数后的第一鉴别器,根据所述更新参数后的第一鉴别器的输出结果得到生成器的损失函数,以最小化生成器的损失函数值为目标调整生成器的参数,当生成器的损失函数值小于第二预设阈值时,更新所述生成器的参数,将更新参数后的生成器作为语音增强模型;及
反馈步骤:接收用户发送的待增强的语音数据,将待增强语音数据输入所述语音增强模型,生成增强后的语音数据并反馈至所述用户。
2.如权利要求1所述的基于人工智能的语音增强方法,其特征在于,所述生成器由一个两层的卷积网络及一个两层的全连接神经网络组成,所述卷积网络及第一层全连接神经网络的激活函数为Relu函数,第二层全连接神经网络的激活函数为sigmoid函数。
3.如权利要求1所述的基于人工智能的语音增强方法,其特征在于,所述鉴别器由一个八层的卷积网络、一个一层的长短期记忆循环网络及一个二层的全连接神经网络组成,所述卷积网络、长短期记忆循环网络及第一层全连接神经网络的激活函数为Relu函数,第二层全连接神经网络的激活函数为sigmoid函数。
4.如权利要求1所述的基于人工智能的语音增强方法,其特征在于,所述生成器的损失函数为:
其中,G表示生成器,D表示鉴别器,Z表示带噪语音,Z~Pz(Z)表示样本Z的分布,Xc表示与带噪语音输入生成器后输出的语音,E表示求样本Xc、Z输出的均值,Xc~Pdata(Xc)表示样本Xc的分布,G(Z,Xc)表示生成器将样本Z和样本Xc转换为合成数据,D(G(Z,Xc),Xc)表示所述鉴别器对G(Z,Xc)和Xc的真实度的评分。
5.如权利要求1至4任意一项所述的基于人工智能的语音增强方法,其特征在于,所述鉴别器的损失函数为:
其中,D表示鉴别器,X表示去噪语音,Xc表示与带噪语音输入生成器后输出的语音,X,Xc~Pdata(X,Xc)表示关于训练样本特征X和Xc的分布,D(X,Xc)表示鉴别器对X和Xc的真实度评分,Z~Pz(z)样本Z的分布,Xc~Pdata(Xc)表示样本Xc的分布,E表示求样本X、Xc或样本Z、Xc输出的均值,G(Z,Xc)表示生成器将样本Z和样本Xc转换为合成数据,D(G(Z,Xc),Xc)表示鉴别器对G(Z,Xc)和Xc的真实度评分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910969019.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:部署环境测试方法、装置、计算机设备及存储介质
- 下一篇:智能锯切系统