[发明专利]音频合成方法、装置、电子设备和可读存储介质在审

申请号：	202111148956.2	申请日：	2021-09-28
公开（公告）号：	CN113870828A	公开（公告）日：	2021-12-31
发明（设计）人：	蒋微	申请（专利权）人：	维沃移动通信有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/10
代理公司：	北京博雅睿泉专利代理事务所(特殊普通合伙) 11442	代理人：	孙菲
地址：	523863 ***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频合成方法装置电子设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种音频合成方法、装置、电子设备和可读存储介质，属于语音合成技术领域。该方法包括：获取目标信息；获取目标发音人的韵律特性参数，所述韵律特性参数包括语速参考向量、停顿长度参考向量、风格向量；根据所述目标信息和所述韵律特性参数，确定声学特征信息；对所述声学特征信息进行转换，生成与所述目标信息对应的目标音频数据。

技术领域

本申请属于语音合成技术领域，具体涉及一种音频合成方法、装置、电子设备和可读存储介质。

背景技术

语音合成(Text to Speech，TTS)技术是指将文字信息转换为语音信息的技术。个性化语音合成(Personal Text to Speech)是指通过录音设备录取某个人的某些语音片段后，基于TTS语音技术，合成出符合某个特定人说话方式的语音合成技术。

然而，目前的语音合成技术，合成的语音不能体现不同用户的发声特点，合成效果较差。

发明内容

本申请实施例的目的是提供一种音频合成方法、装置、电子设备和可读存储介质，能够解决语音合成技术，合成的语音不能体现不同用户的发声特点，合成效果较差的问题。

第一方面，本申请实施例提供了一种音频合成方法，该方法包括：

获取目标信息；

获取目标发音人的韵律特性参数，所述韵律特性参数包括语速参考向量、停顿长度参考向量、风格向量；

根据所述目标信息和所述韵律特性参数，确定声学特征信息；

对所述声学特征信息进行转换，生成与所述目标信息对应的目标音频数据。

第二方面，本申请实施例提供了一种音频合成装置，所述装置包括：

第一获取模块，用于获取目标信息；

第二获取模块，用于获取目标发音人的韵律特性参数，所述韵律特性参数包括语速参考向量、停顿长度参考向量、风格向量；

第一确定模块，用于根据所述目标信息和所述韵律特性参数，确定声学特征信息；

生成模块，用于对所述声学特征信息进行转换，生成与所述目标信息对应的目标音频数据。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，获取目标信息和目标发音人的韵律特性参数，根据目标信息和目标发音人的韵律特性参数，确定声学特征信息，并对声学特征信息进行转换，生成与目标信息对应的目标音频数据，这样，可以获取目标发音人的韵律特性参数，并使用目标发音人的韵律特性参数影响声学特征信息的生成，可以根据不同发音人的说话风格和韵律特点，个性化合成目标音频数据，使得生成的目标音频数据更贴近目标发音人的发音特点。

附图说明

图1是本申请实施例提供的一种音频合成方法的流程示意图；

图2是本申请实施例提供的一种风格向量编解码模型的示意图；

图3是本申请实施例提供的一种目标音频数据的合成过程的示意图；

图4是本申请实施例提供的一种音频合成装置的结构示意图；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于维沃移动通信有限公司，未经维沃移动通信有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111148956.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]音频合成方法、装置、电子设备和可读存储介质在审

专利文献下载