[发明专利]一种基于神经网络的歌曲生成方法和系统在审
申请号: | 201811550908.4 | 申请日: | 2018-12-18 |
公开(公告)号: | CN109801608A | 公开(公告)日: | 2019-05-24 |
发明(设计)人: | 周湘君;杜庆焜;陈海荣;张李京 | 申请(专利权)人: | 武汉西山艺创文化有限公司 |
主分类号: | G10H1/00 | 分类号: | G10H1/00 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 陈慧华 |
地址: | 430000 湖北省武汉市东湖新技术开发区光谷大道*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音素 神经网络 歌曲 歌词文本 预测模型 基频 神经网络模型 生成系统 样本集合 音频文件 预测 申请 | ||
1.一种基于神经网路的歌曲生成方法,其特征在于,包括以下步骤:
S100)获取歌词文本并确定演唱者;
S200)从所述歌词文本中提取音素;
S300)根据音素预测模型预测每个所述音素对应的持续时间和基频,其中,所述音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型;
S400)将所述音素、持续时间和基频结合,得到目标歌曲音频。
2.根据权利要求1所述的方法,其特征在于,所述步骤S100还包括以下子步骤:
S101)获取歌曲生成页面,所述歌曲生成页面用于设置所述歌词文本和演唱者;
S102)从所述歌曲生成页面获取歌词文本;
S103)确定所述歌曲生成页面中被选中的演唱者。
3.根据权利要求1所述的方法,其特征在于,所述步骤S200还包括以下子步骤:
S201)根据标准音素字典生成样本集以训练得到语素音素转换模型,其中,样本集存放有音素和语素的键值对,语素音素转换模型为神经网络模型;
S202)使用所述语素音素转换模型将所述歌词文本中的语素转换为所述音素。
4.根据权利要求1所述的方法,其特征在于,所述步骤S300还包括以下子步骤:
S301)从所述演唱者对应的音频文件样本集合获取被文本样本标记的音频文件样本;
S302)从所述文本样本中提取第一音素样本,并根据分割模型将所述音频文件样本分割得到每个所述第一音素样本对应的音频剪辑;
S303)根据所述音频剪辑获取每个所述第一音素样本对应的持续时间和基频,以构建训练样本集合;
S304)根据所述训练样本集合训练所述音素预测模型;
S305)根据训练得到的所述音素预测模型预测所述歌词文本中每个所述音素对应的持续时间和基频。
5.根据权利要求4所述的方法,其特征在于,每个所述第一音素样本的音频剪辑至少包括在所述音频文件样本中的起始时间。
6.根据权利要求1所述的方法,其特征在于,所述步骤S400还包括以下子步骤:
S401)获取语音合成模型,所述语音合成模型为使用语音合成样本集合训练得到的神经网络模型,所述语音合成样本包括带有持续时间和基频信息的第二音素样本和对应的语音剪辑;
S402)将所述音素、持续时间和基频作为所述语音合成模型的输入,以经过语音合成模型处理后输出所述歌词文本对应的目标歌曲音频。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,还包括:
S500)获取伴奏音频;
S600)将所述伴奏音频与所述目标歌曲音频合成,得到新的目标歌曲音频。
8.根据权利要求1所述的方法,其特征在于,所述音素预测模型是基于Tensorflow和Kerass学习框架建立。
9.一种基于神经网络的歌曲生成系统,适用于二维电子动作游戏的制作,其特征在于,包括以下模块:
导入模块,用于获取歌词文本并确定演唱者;
音素提取模块,用于从所述歌词文本中提取音素;
音素预测模块,用于据音素预测模型预测每个所述音素对应的持续时间和基频,其中,所述音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型;
结合模块,用于将所述音素、持续时间和基频结合,得到目标歌曲音频。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于该指令被处理器执行时实现如权利要求1至8中任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉西山艺创文化有限公司,未经武汉西山艺创文化有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811550908.4/1.html,转载请声明来源钻瓜专利网。