[发明专利]基于深度完全卷积神经网络的生成对抗网络语音增强方法有效
申请号: | 201910755047.1 | 申请日: | 2019-08-15 |
公开(公告)号: | CN110619885B | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 李立欣;程倩倩;李旭;程岳 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L21/0208;G10L25/30;G10L25/60;G06N3/04 |
代理公司: | 西安维赛恩专利代理事务所(普通合伙) 61257 | 代理人: | 刘艳霞 |
地址: | 710072 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 完全 卷积 神经网络 生成 对抗 网络 语音 增强 方法 | ||
1.基于深度完全卷积神经网络的生成对抗网络语音增强方法,其特征在于,包括以下步骤:
步骤一、构建一个数据集,包含含噪语音信号,以及与所述含噪语音信号相对应的纯净语音信号;获得所述含噪语音信号的语谱图,将语谱图作为生成对抗网络中生成器G的输入;
步骤二、基于深度完全卷积神经网络的生成对抗网络模型的生成器G对步骤一所生成的语谱图进行处理,将生成器构建为编码器-译码器结构,通过编码器部分获得潜在向量z,然后潜在向量z经过译码器部分获得语音信号的输出信号;
具体过程如下:
2.1)、将深度完全卷积神经网络与生成对抗网络相结合,对生成对抗网络中生成器的结构进行改进;生成器G网络是一种编码-译码器框架;首先是编码器部分,在编码阶段,将步骤一所得到的含噪语音信号的语谱图作为生成器的输入,然后通过组合许多卷积层和池化层,对语音信号自动进行特征提取来代替传统的人为提取语音特征方式;在多个卷积层之后添加池化层,累计大量的卷积-池化层对,通过一系列卷积层来压缩语音信息;每个卷积层使用小卷积核而不是大卷积核,并且使用均方根误差激活函数用于获得卷积结果,这时经过编码器部分,可以获得潜在向量z;
2.2)、译码器阶段,潜在向量z作为译码器的输入,在多个卷积层之后添加转置卷积层,对应于编码器阶段;在非线性变换之后,输出生成的语音信号;
步骤三、设置判别器D的结构,然后将所述步骤二中的输出信号和所述步骤一中的纯净语音信号作为判别器D的输入,判别器将结果反馈给生成器,根据系统目标函数,两者不断交互对抗、训练,直至达到平衡,获得增强语音信号。
2.如权利要求1所述的基于深度完全卷积神经网络的生成对抗网络语音增强方法,其特征在于,所述步骤一具体为:对于含噪语音信号进行处理,首先分帧,然后做傅里叶变换,得到语音频谱随时间变化的图形,即含噪语音的语谱图。
3.如权利要求1所述的基于深度完全卷积神经网络的生成对抗网络语音增强方法,其特征在于,所述步骤三具体为:
3.1)、设置判别器D的结构:判别器D由卷积层实现,采用“same”零填充策略;使用带泄露修正线性单元,在所有卷积层和Leaky ReLU激活层之间都有一个批处理规范化层;同时,为了确保后一层的输入数据,选择批量规范化层;
3.2)、将所述步骤二中的输出信号和所述步骤一中的纯净语音信号作为判别器D的输入,判别器通过比较二者的特征分布,计算系统的目标函数:
其中,这一项是惩罚项,并设置额外的损失以实现梯度和K间的连接,其中K设置为1,λ是惩罚参数,pdata(x)表示真实数据的概率分布,表示输入噪声变量的概率分布;
3.3)、根据计算得到的目标函数损失值,判别器D得到判断结果,然后通过反向传播算法调整自身的网络参数,使得两者不断交互对抗、训练,直至达到平衡,获得增强语音信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910755047.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:音频编码方法和装置
- 下一篇:一种针对低资源土家语的端到端语音增强方法