[发明专利]歌声生成方法、装置、设备及存储介质有效
申请号: | 201910864720.5 | 申请日: | 2019-09-12 |
公开(公告)号: | CN110600034B | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 张超钢;陈传艺 | 申请(专利权)人: | 广州酷狗计算机科技有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10H1/00 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 邢惠童 |
地址: | 510660 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 歌声 生成 方法 装置 设备 存储 介质 | ||
1.一种歌声生成方法,其特征在于,所述方法包括:
当获取到用户语音时,对所述用户语音进行识别;
当识别出的文字与第一参考歌声中的文字非完全相同时,获取所述用户语音的第一音频特征和第二参考歌声的第二音频特征,所述第二参考歌声为所述第一参考歌声或对所述第一参考歌声进行变调处理得到的参考歌声;
获取所述第一音频特征和所述第二音频特征的帧对齐路径,所述帧对齐路径用于指示所述第一音频特征中的每一帧对应于所述第二音频特征中的帧;
根据所述帧对齐路径和所述第二音频特征的每一帧对应的文字,确定所述第一音频特征的每一帧对应的文字,所述第一音频特征和所述第二音频特征中相对应帧对应的文字相同;
根据所述第一参考歌声中的文字,对确定的所述用户语音中的文字进行变速处理和变调处理,生成用户歌声。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一参考歌声中的文字,对确定的所述用户语音中的文字进行变速处理和变调处理,生成用户歌声,包括:
根据所述第一参考歌声中的文字的时长和音高,对所述第一音频特征的每一帧对应的文字的时长和音高进行调整,生成所述用户歌声。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一参考歌声中的文字的时长和音高,对所述第一音频特征的每一帧对应的文字的时长和音高进行调整,生成所述用户歌声,包括:
将所述第一音频特征的每一帧对应的文字的时长和音高分别调整至所述第一参考歌声中对应文字的时长和音高,生成所述用户歌声。
4.根据权利要求1所述的方法,其特征在于,所述第二参考歌声的第二音频特征的获取过程包括:
根据所述用户语音的平均音高,从多个参考歌声的音频特征中,选取所述第二参考歌声的第二音频特征,所述第二参考歌声的平均音高与所述用户语音的平均音高之间的差值最小;
其中,所述多个参考歌声包括所述第一参考歌声和对所述第一参考歌声进行变调处理得到的参考歌声。
5.根据权利要求1所述的方法,其特征在于,所述第一音频特征和所述第二音频特征为梅尔频率倒谱系数MFCC、梅尔倒谱系数MCEP、线性预测系数PLC或者频谱中的任一种音频特征。
6.一种歌声生成装置,其特征在于,所述装置包括:
识别模块,用于当获取到用户语音时,对所述用户语音进行识别;
获取模块,用于当识别出的文字与第一参考歌声中的文字非完全相同时,获取所述用户语音的第一音频特征和第二参考歌声的第二音频特征,所述第二参考歌声为所述第一参考歌声或对所述第一参考歌声进行变调处理得到的参考歌声;
确定模块,用于获取所述第一音频特征和所述第二音频特征的帧对齐路径,所述帧对齐路径用于指示所述第一音频特征中的每一帧对应于所述第二音频特征中的帧;根据所述帧对齐路径和所述第二音频特征的每一帧对应的文字,确定所述第一音频特征的每一帧对应的文字,所述第一音频特征和所述第二音频特征中相对应帧对应的文字相同;
生成模块,用于根据所述第一参考歌声中的文字,对确定的所述用户语音中的文字进行变速处理和变调处理,生成用户歌声。
7.根据权利要求6所述的装置,其特征在于,所述生成模块用于:
根据所述第一参考歌声中的文字的时长和音高,对所述第一音频特征的每一帧对应的文字的时长和音高进行调整,生成所述用户歌声。
8.根据权利要求7所述的装置,其特征在于,所述生成模块用于:
将所述第一音频特征的每一帧对应的文字的时长和音高分别调整至所述第一参考歌声中对应文字的时长和音高,生成所述用户歌声。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州酷狗计算机科技有限公司,未经广州酷狗计算机科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910864720.5/1.html,转载请声明来源钻瓜专利网。