[发明专利]用于生成音频的方法、装置、设备和介质有效
申请号: | 202010199256.5 | 申请日: | 2020-03-20 |
公开(公告)号: | CN111402842B | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 殷翔 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G10L13/033 | 分类号: | G10L13/033 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 生成 音频 方法 装置 设备 介质 | ||
本公开的实施例公开了用于生成音频的方法、装置、设备和介质。该用于生成音频的方法的一具体实施方式包括:获取目标语音风格信息和目标用户发出的用户语音音频;基于目标语音风格信息和用户语音音频,生成目标语音音频,其中,目标语音音频的语音风格为目标语音风格信息指示的语音风格,目标语音音频的音色与用户语音音频的音色相匹配,并且,目标语音音频对应的文本信息与用户语音音频对应的文本信息相匹配。该实施方式在保持用户语音音频的音色及其对应的文本信息的基础上,可以将用户语音音频的语音风格进行转换,由此丰富了语音音频的生成方式。
技术领域
本公开的实施例涉及计算机技术领域,具体涉及用于生成音频的方法、装置、设备和介质。
背景技术
随着智能手机的普及,用户对图像、音频、视频等媒体信息的处理需求日益多样化。例如,在用户获得图像、音频、视频的同时或之后,通常希望对其进行进一步美化处理,然后再将处理后的图像、视频进行分享或展示。
目前,在音频信号处理领域,常见的音频处理方式包括:格式转换、音频拼接、加快或减慢音频节奏等等。然而,音频通常可以包含响度、音调、频率、音色、乐音等多项特征,每一项特征的差异,都将产生音频的不同。例如,现阶段,越来越多的人喜欢用歌曲来表达自己的情感、释放压力等等。而由于唱歌技巧的缺乏,用户往往难以演绎出自己满意的歌曲,与原唱的演唱风格差异较大。
发明内容
本公开提出了用于生成音频的方法、装置、设备和介质。
第一方面,本公开的实施例提供了一种用于生成音频的方法,该方法包括:获取目标语音风格信息和目标用户发出的用户语音音频;基于目标语音风格信息和用户语音音频,生成目标语音音频,其中,目标语音音频的语音风格为目标语音风格信息指示的语音风格,目标语音音频的音色与用户语音音频的音色相匹配,并且,目标语音音频对应的文本信息与用户语音音频对应的文本信息相匹配。
在一些实施例中,用户语音音频为目标用户演唱的歌曲的音频,用户语音音频对应的文本信息为歌曲的歌词信息;以及,基于目标语音风格信息和用户语音音频,生成目标语音音频,包括:基于歌词信息、用户语音音频的声谱信息,生成用户语音音频的音色信息;基于音色信息和目标语音风格信息,生成目标语音音频,其中,目标语音音频的音高与歌曲的音高相匹配。
在一些实施例中,音色信息和目标语音风格信息分别采用矩阵的形式表征;以及,基于音色信息和目标语音风格信息,生成目标语音音频,包括:通过预先确定的声码器,基于音色信息和目标语音风格信息的点积结果指示的梅尔频谱信息,生成目标语音音频,其中,声码器用于表征梅尔频谱信息与语音音频之间的对应关系。
在一些实施例中,基于歌词信息、用户语音音频的声谱信息,生成用户语音音频的音色信息,包括:采用自回归解码器,基于歌词信息、用户语音音频的声谱信息,生成用户语音音频的音色信息。
在一些实施例中,目标语音风格信息通过如下步骤获得:获取具有目标语音风格信息指示的语音风格的人员的语音音频;基于人员的语音音频,生成目标语音风格信息。
在一些实施例中,基于人员的语音音频,生成目标语音风格信息,包括:基于人员的语音音频对应的文本信息、人员的语音音频的声谱信息和人员的语音音频的梅尔频谱信息,生成目标语音风格信息。
在一些实施例中,人员的语音音频为人员演唱的歌曲的音频,人员的语音音频对应的文本信息为歌曲的歌词信息;以及,基于人员的语音音频对应的文本信息、人员的语音音频的声谱信息和人员的语音音频的梅尔频谱信息,生成目标语音风格信息,包括:基于歌词信息、人员的语音音频的声谱信息、人员的语音音频的梅尔频谱信息和人员的语音音频的音高信息,生成目标语音风格信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010199256.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快速接头及连接件
- 下一篇:像元级倍增内线帧转移CCD像素结构