[发明专利]一种基于深度学习的有声书韵律语音合成方法在审
申请号: | 202211685174.7 | 申请日: | 2022-12-27 |
公开(公告)号: | CN116072100A | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 林伟;钟巧霞;曾碧;林镇涛 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L13/10;G10L25/18 |
代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 江金城 |
地址: | 510062 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 有声 韵律 语音 合成 方法 | ||
1.一种基于深度学习的有声书韵律语音合成方法,其特征在于,通过说话人编码器、声学模型和声码器三大模块进行文本内容的音频合成,包括以下步骤:
步骤S1:从数据集中挑选出参考音频Wavreference,将经过预处理转化为参考频谱Greference,构建说话人身份标签,将其映射为向量S;
步骤S2:将参考频谱Greference输入到一个长短时记忆网络中,再通过线性层获取说话人编码器的输出,将该结构输出向量Spred与训练集中的说话人身份标签向量S进行余弦相似度损失运算,减少相同说话人向量之间的距离;
步骤S3:重复步骤S2的操作,优化网络结构,直至达到迭代次数,说话人向量编码器训练完成;
步骤S4:从数据集随机挑选出参考频谱Greference,同时选取训练文本Text和对应的真实音频Wav;经过预处理将Text转化为原始音素序列phonemes,同时提取音频的真实音素时长序列T和真实梅尔频谱G;将原始音素序列phonemes送入编码器Encoder中获取音素的鲁棒性序列Z;
步骤S5:将音素的鲁棒性序列Z输入时长预测器DurationPrediction中获取每一个音素的持续时长,输出预测音素时长序列Tpred;在训练时,通过平滑L1损失函数计算预测音素时长序列Tpred与真实音素时长序列T之间的误差,进而通过反向传播优化网络的参数;
步骤S6:将音素的鲁棒性序列Z和预测音素时长序列Tpred分别送入扩展模块,进行复制扩展,并添加位置编码PositionEmbedding和说话人编码SpeakingEmbedding,得到与合成音频时长相等的扩展音素序列K;
步骤S7:将扩展音素序列K送入韵律预测器ProsyPrediction中挨个获取音素的韵律序列,最终输出音素韵律序列P;
步骤S8:将扩展音素序列K和音素韵律序列P结合后作为解码器Decoder的输入,最终解码出梅尔频谱Gpred;在训练时,采用Adam优化器、SSIM损失函数与L1损失函数共同优化模型;
步骤S9:重复步骤S4-S8,优化网络结构,直至达到最大迭代次数,声学模型结构f训练完成;
步骤S10:将真实梅尔频谱G送入声码器的生成器g中,获取相应的音频序列;接着判别器对生成器的输出音频Wavpred进行打分,降低生成器生成音频Wavpred与真实音频Wav的差值从而优化生成器结构;
步骤S11:重复步骤S10,优化网络结构,直至达到最大迭代次数,声码器结构g训练完成;
步骤S12:将参考音频Wavreference预处理得到参考频谱Greference,并传入说话人编码器中提取说话人编码向量SpeakEmbedding;
步骤S13:将待合成文本Text转化为音素序列phonemes,将音素序列phonemes输入声学模型f并结合说话人编码向量SpeakEmbedding和位置编码PositionEmbedding获取预测的梅尔频谱Gpred;
步骤S14:最后将梅尔频谱Gpred输入声码器模型的生成器g中得到预测音频Wavpred。
2.根据权利要求1所述的一种基于深度学习的有声书韵律语音合成方法,其特征在于,所述步骤S1具体为:通过傅里叶变化得到真实梅尔频谱G,通过预先训练的扩张卷积结合自注意力结构的自回归教师模型去提取真实音素时长T作为训练标签;同时,将数据集中不同说话人的音频片段切分成短音频片段,并将其转化成梅尔频谱Greference,相关音频与对应说话人共同构成说话人身份标签,并将说话人身份标签映射为向量S。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211685174.7/1.html,转载请声明来源钻瓜专利网。