[发明专利]基于人工智能的音频生成方法、装置、设备及存储介质在审

申请号：	202110620109.5	申请日：	2021-06-03
公开（公告）号：	CN113822017A	公开（公告）日：	2021-12-21
发明（设计）人：	郑艺斌;李新辉;苏文超;卢鲤	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F40/126	分类号：	G06F40/126;G06F16/33;G06F16/683;G06N3/04;G06N3/08
代理公司：	北京派特恩知识产权代理有限公司 11270	代理人：	赵翠萍;张颖玲
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于人工智能音频生成方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种基于人工智能的音频生成方法、装置、电子设备及计算机可读存储介质；涉及人工智能技术；方法包括：对目标对象的多个音频数据进行采样处理，得到目标对象的参考音频数据；对目标对象的参考音频数据进行音频编码处理，得到参考音频数据的参考嵌入向量；对参考音频数据的参考嵌入向量进行基于音色的注意力处理，得到目标对象的音色嵌入向量；对目标文本进行文本编码处理，得到目标文本的内容嵌入向量；基于目标对象的音色嵌入向量以及目标文本的内容嵌入向量进行合成处理，得到符合目标对象的音色且与目标文本对应的音频数据。通过本申请，能够提高音频合成的稳定性。

技术领域

本申请涉及人工智能技术，尤其涉及一种基于人工智能的音频生成方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

相关技术中对于音频的合成方式比较粗糙，通常是直接对目标对象的音频数据进行特征提取，并基于提取到的目标对象的嵌入向量进行合成，以得到合成的音频数据，这种合成方式无法实现音频的精准合成，从而影响用户体验正常的音频合成。

发明内容

本申请实施例提供一种基于人工智能的音频生成方法、装置、电子设备及计算机可读存储介质，能够提高音频合成的准确性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种基于人工智能的音频生成方法，包括：

对目标对象的多个音频数据进行采样处理，得到所述目标对象的参考音频数据；

对所述目标对象的参考音频数据进行音频编码处理，得到所述参考音频数据的参考嵌入向量；

对所述参考音频数据的参考嵌入向量进行基于音色的注意力处理，得到所述目标对象的音色嵌入向量；

对目标文本进行文本编码处理，得到所述目标文本的内容嵌入向量；

基于所述目标对象的音色嵌入向量以及所述目标文本的内容嵌入向量进行合成处理，得到符合所述目标对象的音色且与所述目标文本对应的音频数据。

本申请实施例提供一种基于人工智能的音频生成装置，包括：

采样模块，用于对目标对象的多个音频数据进行采样处理，得到所述目标对象的参考音频数据；