[发明专利]音频合成方法、装置、电子设备和可读存储介质在审

申请号：	202111148956.2	申请日：	2021-09-28
公开（公告）号：	CN113870828A	公开（公告）日：	2021-12-31
发明（设计）人：	蒋微	申请（专利权）人：	维沃移动通信有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/10
代理公司：	北京博雅睿泉专利代理事务所(特殊普通合伙) 11442	代理人：	孙菲
地址：	523863 ***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频合成方法装置电子设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种音频合成方法，其特征在于，所述方法包括：

获取目标信息；

获取目标发音人的韵律特性参数，所述韵律特性参数包括语速参考向量、停顿长度参考向量、风格向量；

根据所述目标信息和所述韵律特性参数，确定声学特征信息；

对所述声学特征信息进行转换，生成与所述目标信息对应的目标音频数据。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标信息和所述韵律特性参数，确定声学特征信息，包括：

对所述目标信息进行分析，得到文本特征参数，所述文本特征参数包括第一音素序列和文本韵律；

根据所述文本韵律、所述停顿长度参考向量和所述第一音素序列，生成第二音素序列；

根据所述第二音素序列和所述语速参考向量，确定第一音频特征；

根据所述第一音频特征和所述风格向量，确定第二音频特征；

基于声学预测模型，根据所述第二音频特征，确定所述声学特征信息。

3.根据权利要求2所述的方法，其特征在于，所述根据所述文本韵律、所述停顿长度参考向量和所述第一音素序列，生成第二音素序列，包括：

根据所述文本韵律和所述停顿长度参考向量，生成修正后的韵律信息；

根据所述修正后的韵律信息和所述第一音素序列，生成第二音素序列。

4.根据权利要求2所述的方法，其特征在于，所述根据所述第二音素序列和所述语速参考向量，确定第一音频特征，包括：

基于所述第二音素序列进行时长预测，得到第一音素时长；

根据所述语速参考向量对所述第一音素时长进行调整，得到第二音素时长；

根据所述第二音素时长对所述第二音素序列进行扩展，得到第一音频特征。

5.根据权利要求2所述的方法，其特征在于，所述基于声学预测模型，根据所述第二音频特征，确定所述声学特征信息之前，所述方法还包括：

获取所述目标发音人的第一音频数据，所述第一音频数据为所述目标发音人朗读预设文本的音频数据；

基于所述第一音频数据，进行模型训练，得到所述声学预测模型；

其中，所述声学预测模型用于根据第二音频特征得到声学特征信息。

6.根据权利要求1所述的方法，其特征在于，所述韵律特性参数包括语速参考向量，所述获取目标发音人的韵律特性参数，包括：

获取所述目标发音人的历史音频数据；

根据所述历史音频数据，确定所述目标发音人的第一平均语速；

根据所述第一平均语速和预设平均语速，确定所述语速参考向量。

7.根据权利要求1所述的方法，其特征在于，所述韵律特性参数包括停顿长度参考向量，所述获取目标发音人的韵律特性参数，包括：

获取所述目标发音人的历史音频数据；

根据所述历史音频数据，确定不同音节长度对应的停顿概率；

根据所述不同音节长度对应的停顿概率，确定停顿长度参考向量。

8.一种音频合成装置，其特征在于，所述装置包括：

第一获取模块，用于获取目标信息；

第二获取模块，用于获取目标发音人的韵律特性参数，所述韵律特性参数包括语速参考向量、停顿长度参考向量、风格向量；

第一确定模块，用于根据所述目标信息和所述韵律特性参数，确定声学特征信息；

生成模块，用于对所述声学特征信息进行转换，生成与所述目标信息对应的目标音频数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于维沃移动通信有限公司，未经维沃移动通信有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111148956.2/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载