[发明专利]一种基于深度学习的有声书韵律语音合成方法在审
申请号: | 202211685174.7 | 申请日: | 2022-12-27 |
公开(公告)号: | CN116072100A | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 林伟;钟巧霞;曾碧;林镇涛 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L13/10;G10L25/18 |
代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 江金城 |
地址: | 510062 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 有声 韵律 语音 合成 方法 | ||
本发明公开了一种基于深度学习的有声书韵律语音合成方法,首先,通过说话人编码器模块,提取参考音频的音频特征;其次,将待合成音频文本传入编码器和时长预测器并融合参考音频特征得到音频编码;接着通过韵律预测器和解码器输出合成音频频谱;最后,通过声码器将频谱转化为合成音频。本发明通过引入轻量卷积、韵律预测器,结合音素持续时长和音素韵律特征进行模型的训练,控制生成音频的全局韵律,解决发音容易出现错误且发声韵律单调无变化问题。
技术领域
本发明主要涉及自然语言处理领域中的语音合成技术,提供一种基于深度学习的有声书韵律语音合成方法,通过说话人编码器、声学模型和声码器三大模块进行文本内容的音频合成,帮助人们更舒适地享受现代科技成果,在听书时获得更好的体验。
背景技术
随着现代社会的发展,电子化阅读逐渐兴起,但是当人们长时间注视电子屏幕很容易造成视觉疲劳,因此听书的方式开始受到追捧。科技社会的到来,人们开始探寻用机器去合成音频的方法。现在我们可以发现身边随处可见语音合成的应用,如发音导航、智能操作引领等。最初,人们对于语音合成的要求是合成发音准确的音频。但随着人们生活质量的提高,人们对于生成语音质量要求也逐渐升高,开始追寻合成可懂度高、悦耳的发音。最初的拼接式语音合成需要大量语料库且存在拼接时出现毛刺的问题,改进后的参数式语音合成方法能够提升发音的可懂度,但需要复杂的管道设计和较多的音视频处理知识,且生成电子音让人听起来很不舒服。随着深度学习网络的发展,基于深度学习的语音合成方法逐渐成为主流。针对语音合成任务已经产生了许多成功的算法,如SpeedySpeech等。这些算法主要通过神经网络训练生成梅尔频谱,再通过声码器解码声音波形,简化了语音合成的管道流程,提升合成效率。但这些算法只能够合成中性语调的音频,这些生成音频中不具备韵律色彩。阅读时能够加入韵律的变化,能够更好地讲述故事,让听众更加享受阅读的过程。因此如何提升合成音频的韵律表现,成为了目前语音合成研究探索的一个重要研究方向。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于深度学习的有声书韵律语音合成方法(有声书韵律合成方法是指在有声书阅读场景下,生成韵律丰富音频的语音合成方法)。
为实现上述目的,本发明所提供的技术方案为:
一种基于深度学习的有声书韵律语音合成方法,通过说话人编码器、声学模型和声码器三大模块进行文本内容的音频合成,包括以下步骤:
步骤S1:从数据集中挑选出参考音频Wavreference,将经过预处理转化为参考频谱Greference,构建说话人身份标签,将其映射为向量S;
步骤S2:将参考频谱Greference输入到一个长短时记忆网络中,再通过线性层获取说话人编码器的输出,将该结构输出向量Spred与训练集中的说话人身份标签向量S进行余弦相似度损失运算,减少相同说话人向量之间的距离;
步骤S3:重复步骤S2的操作,优化网络结构,直至达到迭代次数,说话人向量编码器训练完成;
步骤S4:从数据集随机挑选出参考频谱Greference,同时选取训练文本Text和对应的真实音频Wav;经过预处理将Text转化为原始音素序列phonemes,同时提取音频的真实音素时长序列T和真实梅尔频谱G;将原始音素序列phonemes送入编码器Encoder中获取音素的鲁棒性序列Z;
步骤S5:将音素的鲁棒性序列Z输入时长预测器DurationPrediction中获取每一个音素的持续时长,输出预测音素时长序列Tpred;在训练时,通过平滑L1损失函数计算预测音素时长序列Tpred与真实音素时长序列T之间的误差,进而通过反向传播优化网络的参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211685174.7/2.html,转载请声明来源钻瓜专利网。