[发明专利]一种基于生成对抗网络的虚拟人声视唱方法和系统有效
申请号: | 202010590728.X | 申请日: | 2020-06-24 |
公开(公告)号: | CN111816148B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 吴清强;刘昆宏;张敬峥;吴苏悦;宗雁翔;朱何莹 | 申请(专利权)人: | 厦门大学 |
主分类号: | G10H1/00 | 分类号: | G10H1/00;G06N3/08;G06N3/0442;G06N3/045;G06N3/0464 |
代理公司: | 北京金咨知识产权代理有限公司 11612 | 代理人: | 严业福 |
地址: | 361005 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 网络 虚拟 人声 视唱 方法 系统 | ||
1.一种基于生成对抗网络的虚拟人声视唱方法,所述方法包括:
步骤一、输入abc记谱法文件和用Vocaloid制作的人声唱谱音频,人声唱谱音频与abc文件相对应;
步骤二、将abc文件转化为自定义格式的文本文件,将自定义文本文件和人声音频作为Tacotron-2神经网络模型的输入;
步骤三、在Tacotron-2神经网络中,输入的文本文件中的字符通过512维的字符嵌入Character Embedding表示,而后通过3个卷积层,卷积层的输出再传递到一个双向LSTM层中,同时,使用位置敏感注意力Location Sensitive Attention使得模型在输入的过程中始终向前移动,Tacotron-2神经网络生成的模型即梅尔频谱将作为MelGAN模型的输入;
步骤四、将Tacotron-2神经网络训练好的模型和原始人声音频文件作为MelGAN生成对抗神经网络模型的输入,通过生成器和鉴别器,最终得到特征图Feature Map以及合成的人声唱谱音频文件,完成了虚拟人声波形文件的合成;
步骤五、根据场景将相应的音频片段粘合拼接起来,最终将得到一段完整的虚拟人声视唱音乐;
还包括将对抗网络进行改进,具体包括:
在生成器放置一个感应偏差,即音频时间步长之间存在长范围相关性,在每个上采样层之后添加了具有膨胀的剩余块,因此每个后续层中,具有时间窗距离较远的输出激活仍然具有显著的重叠,一堆膨胀卷积层的接收场随层数呈指数增长,纳入生成器后能增加每个输出时间步骤的诱导接收场,实现在远距离时间步长的诱导感受场中更大的重叠,导致更好的长程相关性;
使用内核大小作为跨度的倍数,确保膨胀随核大小的增长而增长,以使堆栈的接受场是一个完全平衡和对称树,核大小作为分支因子;
在生成器和鉴别器的所有层中使用权重归一化;
采用具有3个鉴别器D1,D2,D3的多尺度架构,3个鉴别器具有相同的网络结构,在不同的音频尺度上运行,D1以原始音频的规模运行,D2,D3以分别以降频2倍和4倍的原始音频进行运行,下采样使用内核大小为4的跨步平均池执行;
使用特征匹配目标来训练生成器。
2.根据权利要求1所述的方法,其特征在于,步骤二具体包括:将乐谱信息带入到每一个音符,从而使得乐谱可以像文字一样被神经网络读出来,使用三个关键点:音高、时长和发音来表达乐谱中的音节;
用自定义的规则将abc记谱法转化为另一种语言形式化的记谱法,保存在txt文件中,即乐谱语音,生成的文件为乐谱解析文件,乐谱解析文件第一项为音符和音调信息;‘b’表示降半调;‘#’表示升半调;‘r’表示空音,将数字和特殊符号用纯英文进行代替,具体的,将表示音高的原符号3、4、5分别用n、o、p代替,将表示时长的1/8拍、1/4拍、3/8拍、1/2拍、3/4拍、1拍分别用q、r、s、t、u、v代替,将表示音符的c、c#、d、d#、e、f、f#、g、g#、a、a#、b分别用a、b、c、d、e、f、g、h、i、j、k、l代替。
3.根据权利要求1所述的方法,其特征在于,步骤三还包括:
使用位置敏感注意力使得模型在输入的过程中始终向前移动,将预测结果通过一个包含2个完全连接层的前置网络Pre-Net,而后,前置网络的输出和注意力上下文向量Attention Context Vector将传递到2个单向的LSTM层,LSTM层的输出和注意力上下文向量经过线性投影后,生成梅尔频谱,最后,将预测出的特征结果传递给一个包含5层卷积层的后置网络中,改善总体重建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010590728.X/1.html,转载请声明来源钻瓜专利网。