[发明专利]用于生成音频的方法、装置、设备和介质在审
申请号: | 202011272812.3 | 申请日: | 2020-11-13 |
公开(公告)号: | CN112652292A | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 汤本来 | 申请(专利权)人: | 北京有竹居网络技术有限公司 |
主分类号: | G10L13/033 | 分类号: | G10L13/033;G10L13/04;G10L19/00;G10L25/03;G10L25/27 |
代理公司: | 北京海智友知识产权代理事务所(普通合伙) 11455 | 代理人: | 吴京顺 |
地址: | 101299 北京市平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 生成 音频 方法 装置 设备 介质 | ||
本公开的实施例公开了用于生成音频的方法、装置、设备和介质。该用于生成音频的方法的一具体实施方式包括:获取源说话人的声学特征信息、目标年龄段标签信息和目标语音音色信息;基于源说话人的声学特征信息、目标年龄段标签信息和目标语音音色信息,生成目标语音音频,其中,目标年龄段标签信息用于指示目标语音音频所属的年龄段信息,目标语音音频的音色与目标语音音色信息相匹配。该实施方式可以将源说话人的声学特征信息转换为具有目标年龄段标签信息和目标语音音色信息的语音音频,由此实现了语音音频所属的年龄段与音色的切换,丰富了语音音频的生成方式。
技术领域
本公开的实施例涉及计算机技术领域,具体涉及用于生成音频的方法、装置、设备和介质。
背景技术
近年来,由于短视频和数字娱乐媒体的迅猛发展,将源说话人语音转变为不同年龄段的指定说话人的语音得到了广泛关注和研究。
对源说话人的语音进行切换的方式主要是利用频谱搬移,将语音信号转换为频域信号,然后在频域上,将信号频谱整体搬移到高频域范围,最后再将其变换回时域,最终完成变声目的。
发明内容
本公开提出了用于生成音频的方法、装置、设备和介质。
第一方面,本公开的实施例提供了一种用于生成音频的方法,该方法包括:获取源说话人的声学特征信息、目标年龄段标签信息和目标语音音色信息;基于源说话人的声学特征信息、目标年龄段标签信息和目标语音音色信息,生成目标语音音频,其中,目标年龄段标签信息用于指示目标语音音频所属的年龄段信息,目标语音音频的音色与目标语音音色信息相匹配。
在一些实施例中,基于源说话人的声学特征信息、目标年龄段标签信息和目标语音音色信息,生成目标语音音频,包括:将源说话人的声学特征信息输入预训练的生成对抗网络中生成网络中的编码器,得到编码后的声学特征信息;将编码后的声学特征信息、目标年龄段标签信息和目标语音音色信息输入预训练的生成对抗网络中生成网络中的解码器,得到目标声学特征信息;将目标声学特征信息输入声码器,得到目标语音音频。
在一些实施例中,编码器和解码器通过以下方式训练得到:获取不同用户提供的标注有仅具有该用户语音音色信息的声学特征信息的声学特征信息样本;将声学特征信息样本输入待训练的编码器,得到编码后的声学特征信息样本;将编码后的声学特征信息样本输入解码器,得到预测的声学特征信息;基于预测的声学特征信息、与输入的声学特征信息样本相对应的具有期望的年龄段标签信息的声学特征信息和生成对抗网络中的判别网络,对生成网络的编码器和解码器进行训练,得到初步训练完成的编码器和解码器,根据标注的声学特征信息与预测的声学特征信息的偏差,调整初步训练完成的编码器和解码器的参数,直到所述偏差满足预设条件,则得到训练完成的编码器和解码器。
在一些实施例中,基于预测的声学特征信息、与输入的声学特征信息样本相对应的具有期望的年龄段标签信息的声学特征信息和生成对抗网络中的判别网络,对生成网络的编码器和解码器进行训练,得到初步训练完成的编码器和解码器,包括:将预测的声学特征信息输入年龄段信息分类器,得到分类后的声学特征信息;将分类后的声学特征信息和与输入的声学特征信息样本相对应的具有期望的年龄段标签信息的声学特征信息输入判别网络以对生成网络的编码器和解码器进行训练,得到初步训练完成的编码器和解码器。
在一些实施例中,基于源说话人的声学特征信息和目标年龄段标签信息,生成目标语音音频,包括:基于源说话人的声学特征信息、源说话人的年龄段标签信息、目标年龄段标签信息和目标语音音色信息,生成目标语音音频,其中,源说话人的年龄段标签信息用于指示源说话人的声学特征信息所属的年龄段信息。
在一些实施例中,不同用户的性别与源说话人的性别相同。
在一些实施例中,目标语音音色信息通过如下步骤获得:获取具有目标语音音色信息指示的语音音色的人员的语音音频;将人员的语音音频输入预训练的语音音色编码器,生成目标语音音色信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司,未经北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011272812.3/2.html,转载请声明来源钻瓜专利网。