[发明专利]歌曲合成方法、装置、可读介质及电子设备有效
申请号: | 202010346431.9 | 申请日: | 2020-04-27 |
公开(公告)号: | CN111583900B | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 顾宇;殷翔 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G10L13/033 | 分类号: | G10L13/033;G10L13/08;G10L25/18;G10L25/24;G10L25/30 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 贾会玲 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 歌曲 合成 方法 装置 可读 介质 电子设备 | ||
1.一种歌曲合成方法,其特征在于,包括:
根据目标歌曲的歌曲信息,获取所述目标歌曲的时长特征信息,其中,所述歌曲信息包括歌词和乐谱,所述时长特征信息包括所述歌词所包含的每一音素对应的语音帧的数量;
将所述时长特征信息和所述歌曲信息输入至预设的歌曲合成模型中,得到所述目标歌曲对应的声学特征信息,其中,所述预设的歌曲合成模型为基于注意力机制的序列到序列模型;
通过声码器对所述声学特征信息进行合成,得到所述目标歌曲的歌唱音频;
其中,所述基于注意力机制的序列到序列模型包括编码网络、注意力网络以及解码网络;
所述编码网络用于获取与所述时长特征信息和所述歌曲信息对应的表示序列;
所述注意力网络,用于根据所述表示序列,生成定长的语义表征;
所述解码网络为自回归神经网络,用于根据所述语义表征,获得所述声学特征信息;
所述自回归神经网络包括:预处理网络、循环神经网络、线性投影模块以及后处理网络;所述根据所述语义表征,获取所述声学特征信息,包括:
利用所述预处理网络对时间步t-1的声学子特征做线性变换,其中,当前时间步t=1,时间步0的声学子特征为先前帧,其中,所述先前帧为元素值均为0的向量帧;
利用所述循环神经网络根据线性变换后的时间步t-1的声学子特征和所述语义表征进行解码,得到解码序列和停止标志位;
利用所述线性投影模块对所述解码序列做线性投影,得到当前时间步t的声学子特征;
利用所述后处理网络根据所述当前时间步t的声学子特征,预测残差,并将该残差与所述当前时间步t的声学子特征相加,得到当前时间步t的目标声学子特征;
更新当前时间步t=t+1;
返回所述利用所述预处理网络对时间步t-1的声学子特征做线性变换的步骤,直到所述停止标志位表征停止循环时为止;
将各时间步的目标声学子特征确定为所述目标歌曲对应的声学特征信息。
2.根据权利要求1所述的方法,其特征在于,所述注意力网络为基于高斯混合模型的注意力网络。
3.根据权利要求1所述的方法,其特征在于,所述根据目标歌曲的歌曲信息,获取所述目标歌曲的时长特征信息,包括:
将所述歌曲信息输入至预设的双向长短时记忆网络模型中,得到所述目标歌曲的时长特征信息。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述声码器为单层循环神经网络模型WaveRNN。
5.根据权利要求1-3中任一项所述的方法,其特征在于,所述声学特征信息包括梅尔频谱特征信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010346431.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种收集盘及具有其的切片机
- 下一篇:一种终端设备数据上区块链的系统