[发明专利]一种基于生成对抗网络的虚拟人声视唱方法和系统有效

专利信息
申请号: 202010590728.X 申请日: 2020-06-24
公开(公告)号: CN111816148B 公开(公告)日: 2023-04-07
发明(设计)人: 吴清强;刘昆宏;张敬峥;吴苏悦;宗雁翔;朱何莹 申请(专利权)人: 厦门大学
主分类号: G10H1/00 分类号: G10H1/00;G06N3/08;G06N3/0442;G06N3/045;G06N3/0464
代理公司: 北京金咨知识产权代理有限公司 11612 代理人: 严业福
地址: 361005 福建省*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 生成 对抗 网络 虚拟 人声 视唱 方法 系统
【权利要求书】:

1.一种基于生成对抗网络的虚拟人声视唱方法,所述方法包括:

步骤一、输入abc记谱法文件和用Vocaloid制作的人声唱谱音频,人声唱谱音频与abc文件相对应;

步骤二、将abc文件转化为自定义格式的文本文件,将自定义文本文件和人声音频作为Tacotron-2神经网络模型的输入;

步骤三、在Tacotron-2神经网络中,输入的文本文件中的字符通过512维的字符嵌入Character Embedding表示,而后通过3个卷积层,卷积层的输出再传递到一个双向LSTM层中,同时,使用位置敏感注意力Location Sensitive Attention使得模型在输入的过程中始终向前移动,Tacotron-2神经网络生成的模型即梅尔频谱将作为MelGAN模型的输入;

步骤四、将Tacotron-2神经网络训练好的模型和原始人声音频文件作为MelGAN生成对抗神经网络模型的输入,通过生成器和鉴别器,最终得到特征图Feature Map以及合成的人声唱谱音频文件,完成了虚拟人声波形文件的合成;

步骤五、根据场景将相应的音频片段粘合拼接起来,最终将得到一段完整的虚拟人声视唱音乐;

还包括将对抗网络进行改进,具体包括:

在生成器放置一个感应偏差,即音频时间步长之间存在长范围相关性,在每个上采样层之后添加了具有膨胀的剩余块,因此每个后续层中,具有时间窗距离较远的输出激活仍然具有显著的重叠,一堆膨胀卷积层的接收场随层数呈指数增长,纳入生成器后能增加每个输出时间步骤的诱导接收场,实现在远距离时间步长的诱导感受场中更大的重叠,导致更好的长程相关性;

使用内核大小作为跨度的倍数,确保膨胀随核大小的增长而增长,以使堆栈的接受场是一个完全平衡和对称树,核大小作为分支因子;

在生成器和鉴别器的所有层中使用权重归一化;

采用具有3个鉴别器D1,D2,D3的多尺度架构,3个鉴别器具有相同的网络结构,在不同的音频尺度上运行,D1以原始音频的规模运行,D2,D3以分别以降频2倍和4倍的原始音频进行运行,下采样使用内核大小为4的跨步平均池执行;

使用特征匹配目标来训练生成器。

2.根据权利要求1所述的方法,其特征在于,步骤二具体包括:将乐谱信息带入到每一个音符,从而使得乐谱可以像文字一样被神经网络读出来,使用三个关键点:音高、时长和发音来表达乐谱中的音节;

用自定义的规则将abc记谱法转化为另一种语言形式化的记谱法,保存在txt文件中,即乐谱语音,生成的文件为乐谱解析文件,乐谱解析文件第一项为音符和音调信息;‘b’表示降半调;‘#’表示升半调;‘r’表示空音,将数字和特殊符号用纯英文进行代替,具体的,将表示音高的原符号3、4、5分别用n、o、p代替,将表示时长的1/8拍、1/4拍、3/8拍、1/2拍、3/4拍、1拍分别用q、r、s、t、u、v代替,将表示音符的c、c#、d、d#、e、f、f#、g、g#、a、a#、b分别用a、b、c、d、e、f、g、h、i、j、k、l代替。

3.根据权利要求1所述的方法,其特征在于,步骤三还包括:

使用位置敏感注意力使得模型在输入的过程中始终向前移动,将预测结果通过一个包含2个完全连接层的前置网络Pre-Net,而后,前置网络的输出和注意力上下文向量Attention Context Vector将传递到2个单向的LSTM层,LSTM层的输出和注意力上下文向量经过线性投影后,生成梅尔频谱,最后,将预测出的特征结果传递给一个包含5层卷积层的后置网络中,改善总体重建。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010590728.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top