[发明专利]基于生成对抗网络的语音处理方法及系统有效
申请号: | 202110341574.5 | 申请日: | 2021-03-30 |
公开(公告)号: | CN113096673B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 李晔;冯涛;张鹏;李姝;汪付强 | 申请(专利权)人: | 山东省计算中心(国家超级计算济南中心) |
主分类号: | G10L19/16 | 分类号: | G10L19/16;G06N3/04;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张庆骞 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 生成 对抗 网络 语音 处理 方法 系统 | ||
1.一种基于生成对抗网络的语音处理方法,其特征在于,包括:
获取源语音,并输入至编码器对源语音进行编码;
将编码后的语音信号输入至生成对抗网络模型,最后输出与源语音相匹配的恢复的语音;
其中,生成对抗网络模型包括生成器和鉴别器,训练集由编码前的源语音和编码后质量下降的语音构成;生成器用于恢复编码后质量下降的语音;鉴别器用于比对恢复后的语音与编码前的源语音以区分真信号与假信号,再由鉴别器将区分结果反馈给生成器,以指导生成器学习源语音的真实分布的输出;
训练生成对抗网络模型的步骤,包括:
S1.制作数据集;
S2.数据集的处理;
S3.生成器初始化;
S4.鉴别器初始化;
S5.优化权值;
其中,数据集的处理过程为:
(1)将数据集中的数据整合为tfrecords文件,A、B、C数据被分到wav类,A’,B’,C’被分到noisy类,wav类与noisy类数据是一一对应的;
(2)确定GAN的优化器为RMSProp,将tfrecords文件的wav类与noisy类数据读取出来;
(3)将wav类与noisy类的语音数据的幅值除以2^16,得到处理后的wav’类与noisy’类数据;
(4)将wav’类与noisy’类数据放入程序队列,来等待取出所需的wav’类与noisy’类批次;
优化权值的阶段为:
(1)鉴别器使用wav’类语音作为真实数据,进行鉴别器初始化阶段时输出真的概率,表示为真数据,输出使用R表示;鉴别器输入生成器生成的X作为假数据,鉴别器将进行初始化阶段的操作输出0的概率,表示为假数据,输出使用F表示;
(2)使用flossf表示为鉴别器鉴别输入为假的概率,flossr表示鉴别器鉴别输入为真的概率,使用gloss表示生成器的Loss值,其计算公式分别为
在训练生成对抗网络模型的过程中,根据生成器的Loss值更新生成器初始化中的卷积与反卷积的卷积核的各个数值的权重;
根据鉴别器的loss值更新并保存到本地鉴别器初始化中的卷积核数值的权重及虚拟批量标准化中鉴别器相关参数值;
在训练阶段,重复鉴别器初始化、生成器初始化、优化权值三个步骤,判断当前训练数据个数是否大于tfrecords文件中数据个数,重复进行训练直到达到规定的训练个数。
2.如权利要求1所述的基于生成对抗网络的语音处理方法,其特征在于,所述生成器包括编码和解码两部分结构,编码结构用于提取输入至生成器的语音的特征,解码结构用于输出恢复的语音。
3.如权利要求2所述的基于生成对抗网络的语音处理方法,其特征在于,所述编码结构为若干个二维卷积层。
4.如权利要求1所述的基于生成对抗网络的语音处理方法,其特征在于,所述鉴别器为若干个二维卷积层。
5.如权利要求1所述的基于生成对抗网络的语音处理方法,其特征在于,在训练生成对抗网络模型的过程中,鉴别器使用加设权值的wav类语音作为真实数据,进行鉴别器初始化阶段时输出真的概率,表示为真数据;鉴别器输入生成器生成的语音作为假数据,鉴别器将进行初始化阶段的操作输出0的概率,表示为假数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省计算中心(国家超级计算济南中心),未经山东省计算中心(国家超级计算济南中心)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110341574.5/1.html,转载请声明来源钻瓜专利网。