[发明专利]一种基于双生成器生成对抗网络的语音转换系统研究在审
申请号: | 202011435662.3 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112466317A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 魏建国;更太加 | 申请(专利权)人: | 青海民族大学 |
主分类号: | G10L21/013 | 分类号: | G10L21/013;G10L25/30 |
代理公司: | 北京华智则铭知识产权代理有限公司 11573 | 代理人: | 李树祥 |
地址: | 810007*** | 国省代码: | 青海;63 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双生 成器 生成 对抗 网络 语音 转换 系统 研究 | ||
1.一种基于双生成器生成对抗网络的语音转换系统,其特征在于,所述系统包括:一号生成器,用于根据输入的源语音特征和目标说话人标签生成转换后的语音特征;二号生成器,用于根据一号生成器生成的转换后的语音特征和源说话人的标签重新尝试重新得到源语音的特征;
判别器,用于根据输入的语音特征判断该语音特征序列是否是真实语音;
域分类器,用于根据输入的语音特征和说话人标签判断该语音特征序列属于对应说话人的概率,概率越大代表输入的语音特征包含越多的目标说话人特征,转换语音的相似性越好;
所述一号生成器和判别器、域分类器之间构成了对抗训练过程,生成器用于取得更高的分数,分数越高,证明生成的转换语音更加真实,更加符合目标说话人的特性,判别器用于正确地判断真实语音和虚假语音的特征序列,给生成器生成的结果一个尽量低的分数,域分类器用于正确地判断真实语音和转换语音属于对应说话人的概率,给生成器生成的结果一个尽量低的分数。
2.根据权利要求1所述的系统,其特征在于:将真实语音输入进判别器,使判别器输出尽量高的分数,0为最低,1为最高;将真实语音和对应的说话人标签输入进域分类器,使域分类器输出尽量高的概率,概率靠近1;将真实语音和对应的说话人标签输入进一号生成器,使一号生成器输出和原始输入基本相同的结果,该步骤中本身不存在转换过程;将真实语音和对应的说话人标签输入进二号生成器,使二号生成器输出和原始输入基本相同的结果,该步骤中本身不存在还原的过程;将源语音和目标说话人的标签输入进一号生成器,一号生成器输出的是转换后的音频特征序列,一号生成器用于在后续的判别器和域分类器的打分中获得一个尽量高的分数;将转换后的特征序列输入进判别器,使判别器输出一个尽量低的分数,判别器用于正确地判断区分出真实语音特征和转换后的语音特征。
3.根据权利要求1-2任一项所述的系统,其特征在于:将转换后的特征序列和源说话人的标签输入进二号生成器,二号生成器用于根据输入的信息重新还原源语音的特征序列,帮助生成器在转换过程中减少信息的损失,避免生成器生成单一的真实语音以欺骗判别器和域分类器。
4.根据权利要求1-3任一项所述的系统,其特征在于:生成对抗网络是由一个生成器和一个判别器组成,二者根据给定的目标函数在对抗过程中不断优化迭代,最终得到一个模型。
5.一种基于双生成器生成对抗网络的语音转换系统,其特征在于,所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-4任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。
7.一种包括指令的计算机程序产品,其特征在于,当其在计算机上运行时,使得所述计算机执行权利要求1-4任一项所述的一号生成器、二号生成器、判别器和域分类器的功能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青海民族大学,未经青海民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011435662.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种有机肥发酵工艺
- 下一篇:基于区块链和机器学习的跨系统数据共享方法