[发明专利]一种基于神经网络的歌曲生成方法和系统在审
申请号: | 201811550908.4 | 申请日: | 2018-12-18 |
公开(公告)号: | CN109801608A | 公开(公告)日: | 2019-05-24 |
发明(设计)人: | 周湘君;杜庆焜;陈海荣;张李京 | 申请(专利权)人: | 武汉西山艺创文化有限公司 |
主分类号: | G10H1/00 | 分类号: | G10H1/00 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 陈慧华 |
地址: | 430000 湖北省武汉市东湖新技术开发区光谷大道*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音素 神经网络 歌曲 歌词文本 预测模型 基频 神经网络模型 生成系统 样本集合 音频文件 预测 申请 | ||
一种基于神经网络的歌曲生成方法,包括以下步骤:获取歌词文本并确定演唱者;从所述歌词文本中提取音素;根据音素预测模型预测每个所述音素对应的持续时间和基频,其中,所述音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型;将所述音素、持续时间和基频结合,得到目标歌曲音频。本申请还提出一种与上述方法相应的基于神经网络的歌曲生成系统。
技术领域
本发明涉及神经网络领域,尤其涉及一种基于神经网络的歌曲生成方法和系统。
背景技术
游戏开发和影视领域中,对主题区或片尾曲等歌曲的需求与日俱增,日渐形一条成熟的产业链。
对于游戏开发和影视的公司而言,歌曲的成本大部分来自于知名歌手的演唱费用。由于大部分中小企业难以负担高额的演唱费用,退而求其次,选择知名度不高的歌手进行演唱,而专业水平则得不到保证。
因此,如何节约游戏开发和影视领域中主题曲或片尾曲等歌曲的制作成本成为了游戏开发和影视的公司需要面对的问题。
发明内容
本申请的目的是解决现有技术的不足,提供一种基于神经网络的歌曲生成方法和系统,能够获得降低歌曲制作成本和缩短歌曲制作周期的效果。
为了实现上述目的,本申请采用以下的技术方案。
首先,本申请提出一种基于神经网络的歌曲生成方法,适用于根据歌词自动生成歌曲。该方法包括以下步骤:
S100)获取歌词文本并确定演唱者;
S200)从所述歌词文本中提取音素;
S300)根据音素预测模型预测每个所述音素对应的持续时间和基频,其中,所述音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型;
S400)将所述音素、持续时间和基频结合,得到目标歌曲音频。
进一步地,在本申请的上述方法中,所述步骤S100还包括以下子步骤:
S101)获取歌曲生成页面,所述歌曲生成页面用于设置所述歌词文本和演唱者;
S102)从所述歌曲生成页面获取歌词文本;
S103)确定所述歌曲生成页面中被选中的演唱者。
进一步地,在本申请的上述方法中,所述步骤S200还包括以下子步骤:
S201)根据标准音素字典生成样本集以训练得到语素音素转换模型,其中,样本集存放有音素和语素的键值对,语素音素转换模型为神经网络模型;
S202)使用所述语素音素转换模型将所述歌词文本中的语素转换为所述音素。
进一步地,在本申请的上述方法中,所述步骤S300还包括以下子步骤:
S301)从所述演唱者对应的音频文件样本集合获取被文本样本标记的音频文件样本;
S302)从所述文本样本中提取第一音素样本,并根据分割模型将所述音频文件样本分割得到每个所述第一音素样本对应的音频剪辑;
S303)根据所述音频剪辑获取每个所述第一音素样本对应的持续时间和基频,以构建训练样本集合;
S304)根据所述训练样本集合训练所述音素预测模型;
S305)根据训练得到的所述音素预测模型预测所述歌词文本中每个所述音素对应的持续时间和基频。
进一步地,在本申请的上述方法中,每个所述第一音素样本的音频剪辑至少包括在所述音频文件样本中的起始时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉西山艺创文化有限公司,未经武汉西山艺创文化有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811550908.4/2.html,转载请声明来源钻瓜专利网。