[发明专利]一种基于深度学习的有声书韵律语音合成方法在审

申请号：	202211685174.7	申请日：	2022-12-27
公开（公告）号：	CN116072100A	公开（公告）日：	2023-05-05
发明（设计）人：	林伟;钟巧霞;曾碧;林镇涛	申请（专利权）人：	广东工业大学
主分类号：	G10L13/047	分类号：	G10L13/047;G10L13/10;G10L25/18
代理公司：	广东广信君达律师事务所 44329	代理人：	江金城
地址：	510062 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习有声韵律语音合成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的有声书韵律语音合成方法，其特征在于，通过说话人编码器、声学模型和声码器三大模块进行文本内容的音频合成，包括以下步骤：

步骤S1：从数据集中挑选出参考音频Wav_reference，将经过预处理转化为参考频谱G_reference，构建说话人身份标签，将其映射为向量S；

步骤S2：将参考频谱G_reference输入到一个长短时记忆网络中，再通过线性层获取说话人编码器的输出，将该结构输出向量S^pred与训练集中的说话人身份标签向量S进行余弦相似度损失运算，减少相同说话人向量之间的距离；

步骤S3：重复步骤S2的操作，优化网络结构，直至达到迭代次数，说话人向量编码器训练完成；

步骤S4：从数据集随机挑选出参考频谱G_reference，同时选取训练文本Text和对应的真实音频Wav；经过预处理将Text转化为原始音素序列phonemes，同时提取音频的真实音素时长序列T和真实梅尔频谱G；将原始音素序列phonemes送入编码器Encoder中获取音素的鲁棒性序列Z；

步骤S5：将音素的鲁棒性序列Z输入时长预测器DurationPrediction中获取每一个音素的持续时长，输出预测音素时长序列T_pred；在训练时，通过平滑L1损失函数计算预测音素时长序列T_pred与真实音素时长序列T之间的误差，进而通过反向传播优化网络的参数；

步骤S6：将音素的鲁棒性序列Z和预测音素时长序列T_pred分别送入扩展模块，进行复制扩展，并添加位置编码PositionEmbedding和说话人编码SpeakingEmbedding，得到与合成音频时长相等的扩展音素序列K；

步骤S7：将扩展音素序列K送入韵律预测器ProsyPrediction中挨个获取音素的韵律序列，最终输出音素韵律序列P；

步骤S8：将扩展音素序列K和音素韵律序列P结合后作为解码器Decoder的输入，最终解码出梅尔频谱G_pred；在训练时，采用Adam优化器、SSIM损失函数与L1损失函数共同优化模型；

步骤S9：重复步骤S4-S8，优化网络结构，直至达到最大迭代次数，声学模型结构f训练完成；

步骤S10：将真实梅尔频谱G送入声码器的生成器g中，获取相应的音频序列；接着判别器对生成器的输出音频Wav_pred进行打分，降低生成器生成音频Wav_pred与真实音频Wav的差值从而优化生成器结构；

步骤S11：重复步骤S10，优化网络结构，直至达到最大迭代次数，声码器结构g训练完成；

步骤S12：将参考音频Wav_reference预处理得到参考频谱G_reference，并传入说话人编码器中提取说话人编码向量SpeakEmbedding；

步骤S13：将待合成文本Text转化为音素序列phonemes,将音素序列phonemes输入声学模型f并结合说话人编码向量SpeakEmbedding和位置编码PositionEmbedding获取预测的梅尔频谱G_pred；

步骤S14：最后将梅尔频谱G_pred输入声码器模型的生成器g中得到预测音频Wav_pred。

2.根据权利要求1所述的一种基于深度学习的有声书韵律语音合成方法，其特征在于，所述步骤S1具体为：通过傅里叶变化得到真实梅尔频谱G，通过预先训练的扩张卷积结合自注意力结构的自回归教师模型去提取真实音素时长T作为训练标签；同时，将数据集中不同说话人的音频片段切分成短音频片段，并将其转化成梅尔频谱G_reference，相关音频与对应说话人共同构成说话人身份标签，并将说话人身份标签映射为向量S。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东工业大学，未经广东工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211685174.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种针对煤层瓦斯抽采量进行风险量化分析计算评价方法
下一篇：曲轴箱通风故障的确定方法、确定装置和确定系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的有声书韵律语音合成方法在审

专利文献下载