[发明专利]基于人工智能的语音增强方法、服务器及存储介质有效

申请号：	201910969019.X	申请日：	2019-10-12
公开（公告）号：	CN110853663B	公开（公告）日：	2023-04-28
发明（设计）人：	王健宗;赵峰	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L21/02	分类号：	G10L21/02;G10L21/0216;G10L25/30;G06N3/0464;G06N3/0442;G06N3/048;G06N3/0475;G06N3/084;G06N3/094
代理公司：	深圳市沃德知识产权代理事务所(普通合伙) 44347	代理人：	高杰;于志光
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于人工智能语音增强方法服务器存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及数据处理技术，提供了一种基于人工智能的语音增强方法、服务器及存储介质。该方法首先获取语音数据作为训练样本，构建生成对抗网络，将带噪语音与其对应的去噪语音输入鉴别器，通过损失函数更新鉴别器参数，然后将带噪语音输入生成器，将输出的语音与该带噪语音一起输入鉴别器，计算损失更新鉴别器的参数，固定鉴别器的参数，将带噪语音输入生成器，将输出的语音与该带噪语音输入鉴别器，通过生成器的损失函数更新生成器的参数，将更新参数后的生成器作为语音增强模型，将待增强语音数据输入语音增强模型，生成增强后的语音数据。本发明可以提升基于生成对抗网络的语音增强模型的性能，进而提高语音增强的效果。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于人工智能的语音增强方法、服务器及存储介质。

背景技术

语音增强的目的主要是从带噪语音中去除复杂的背景噪声，并保证在语音信号不失真的条件下提升语音可懂度。传统的语音增强算法大多是基于噪声估计，且处理的噪声类型单一，并不能很好的处理复杂背景下的语音去噪问题。随着神经网络的迅速发展，越来越多的神经网络模型也被应用到语音增强算法中。

然而，由于语音噪声的分布通常复杂，现有的通过基于深度学习的语音增强方法，模型收敛不稳定，导致语音增强效果差。

发明内容

鉴于以上内容，本发明提供一种基于人工智能的语音增强方法、服务器及存储介质，其目的在于本提升语音增强的效果。

为实现上述目的，本发明提供一种基于人工智能的语音增强方法，该方法包括：

获取步骤：获取预设数量的带噪语音及与各带噪语音对应的去噪语音，作为训练样本，将所述训练样本分为第一数据集、第二数据集及第三数据集；

构建步骤：构建生成式对抗网络，所述生成式对抗网络包括至少一个生成器和一个鉴别器；

第一训练步骤：将所述第一数据集输入所述鉴别器，以最小化鉴别器的损失函数值为目标调整鉴别器的参数，当鉴别器的损失函数值小于第一预设阈值时更新所述鉴别器的参数，得到第一鉴别器，再将第二数据集的带噪语音输入所述生成器，将输出的语音和该带噪语音输入所述第一鉴别器，利用反向传播算法更新第一鉴别器的参数；

第二训练步骤：将所述第三数据集的带噪语音输入所述生成器，将输出的语音及该带噪语音输入更新参数后的第一鉴别器，根据所述更新参数后的第一鉴别器的输出结果得到生成器的损失函数，以最小化生成器的损失函数值为目标调整生成器的参数，当生成器的损失函数值小于第二预设阈值时，更新所述生成器的参数，将更新参数后的生成器作为语音增强模型；及

反馈步骤：接收用户发送的待增强的语音数据，将待增强语音数据输入所述语音增强模型，生成增强后的语音数据并反馈至所述用户。

优选的，所述生成器由一个两层的卷积网络及一个两层的全连接神经网络组成，所述卷积网络及第一层全连接神经网络的激活函数为Relu函数，第二层全连接神经网络的激活函数为sigmoid函数。

优选的，所述鉴别器由一个八层的卷积网络、一个一层的长短期记忆循环网络及一个二层的全连接神经网络组成，所述卷积网络、长短期记忆循环网络及第一层全连接神经网络的激活函数为Relu函数，第二层全连接神经网络的激活函数为sigmoid函数。

优选的，所述生成器的损失函数为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于平安科技（深圳）有限公司，未经平安科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910969019.X/2.html，转载请声明来源钻瓜专利网。

上一篇：部署环境测试方法、装置、计算机设备及存储介质
下一篇：智能锯切系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于人工智能的语音增强方法、服务器及存储介质有效

专利文献下载