[发明专利]音频制作方法、装置、设备及存储介质在审
申请号: | 202010753002.3 | 申请日: | 2020-07-30 |
公开(公告)号: | CN111899706A | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 谢少龙 | 申请(专利权)人: | 广州酷狗计算机科技有限公司 |
主分类号: | G10H1/00 | 分类号: | G10H1/00;G10L19/00;G10L19/02;G11B27/031 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 郭翱杰 |
地址: | 510660 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 制作方法 装置 设备 存储 介质 | ||
1.一种音频制作方法,其特征在于,所述方法包括:
显示第一音频的音频编辑界面,所述音频编辑界面包括所述第一音频的至少一句歌词和歌词编辑控件,所述至少一句歌词包括第一歌词;
接收在所述歌词编辑控件上对所述第一歌词的歌词编辑操作,所述歌词编辑操作包括输入第二歌词;
将所述第一音频中的所述第一歌词替换为所述第二歌词,生成第二音频,所述第二音频包括根据所述第二歌词生成的人声音频。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取目标音色,所述目标音色用于生成所述人声音频;
所述将所述第一音频中的所述第一歌词替换为所述第二歌词,生成第二音频,包括:
根据所述目标音色将所述第一音频中的所述第一歌词替换为所述第二歌词,生成所述第二音频。
3.如权利要求2所述的方法,其特征在于,所述根据所述目标音色将所述第一音频中的所述第一歌词替换为所述第二歌词,生成所述第二音频,包括:
根据所述目标音色、所述第二歌词的音素、所述第一音频中所述第一歌词对应的音符生成包含所述第二歌词的所述人声音频;
获取所述第一音频的模板音频,所述模板音频包括伴奏音频和主旋律音频中的至少一种;
根据所述模板音频和所述人声音频生成所述第二音频。
4.如权利要求3所述的方法,其特征在于,所述根据所述目标音色、所述第二歌词的音素、所述第一音频中所述第一歌词对应的音符生成包含所述第二歌词的所述人声音频,包括:
将所述目标音色的音色标识、所述第二歌词的所述音素、所述第一音频中所述第一歌词对应的音符输入声学模型获取梅尔频谱;
调用声码器将所述梅尔频谱转换为所述人声音频。
5.如权利要求2至4任一所述的方法,其特征在于,所述第二音频包括:
音频时长小于所述第一音频,且所述第二歌词的人声音频片段根据所述目标音色生成,除所述第二歌词之外的歌词的人声音频片段使用所述第一音频的原声音色的音频;
或,
所述音频时长等于所述第一音频,且所述第二歌词的人声音频片段根据所述目标音色生成,除所述第二歌词之外的歌词的人声音频片段使用所述第一音频的原声音色的音频;
或,
所述音频时长小于所述第一音频,且全部歌词的所述人声音频是根据所述目标音色生成的音频;
或,
所述音频时长等于所述第一音频,且全部歌词的所述人声音频是根据所述目标音色生成的音频。
6.如权利要求4所述的方法,其特征在于,所述方法还包括:
获取训练数据,所述训练数据包括:训练歌词的音素、所述训练歌词的音符、所述训练歌词的音素位置信息、所述训练歌词的音符位置信息、训练音频的音色标识、所述训练音频的梅尔频谱中的至少一种;
根据所述训练数据训练初始模型得到所述声学模型。
7.如权利要求1至4任一所述的方法,其特征在于,所述方法还包括:
显示所述第二音频的音频播放界面,所述音频播放界面包括播放控件;
响应于接收触发所述播放控件的播放操作,播放所述第二音频。
8.如权利要求2至4任一所述的方法,其特征在于,所述获取目标音色,包括:
显示音色选择界面,所述音色选择界面包括至少一个候选音色和选择控件;
响应于接收到触发所述选择控件的选择操作,根据所述选择操作从所述候选音色中确定所述目标音色;
所述根据所述目标音色将所述第一音频中的所述第一歌词替换为所述第二歌词,生成包含所述第二歌词的所述第二音频之后,还包括:
播放所述第二音频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州酷狗计算机科技有限公司,未经广州酷狗计算机科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010753002.3/1.html,转载请声明来源钻瓜专利网。