[发明专利]一种融合韵律和个人信息的中文语音合成方法有效
申请号: | 202110667531.6 | 申请日: | 2021-06-16 |
公开(公告)号: | CN113393829B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 汤步洲;付沪豪;刘超 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
主分类号: | G10L13/10 | 分类号: | G10L13/10;G10L25/30 |
代理公司: | 深圳市添源创鑫知识产权代理有限公司 44855 | 代理人: | 覃迎峰 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 韵律 个人信息 中文 语音 合成 方法 | ||
1.一种融合韵律和个人信息的中文语音合成方法,其特征在于,包括如下步骤:
步骤1:将输入文本、输入文本对应的拼音和输入文本的词法句法特征输入层次化韵律预测模型,得到输入文本的多层韵律信息;
步骤2:将输入文本对应的拼音、声调输入到声学模型,得到输入文本对应的语音特征谱图;
步骤3:将多层韵律信息引入声学模型,将层次化韵律预测模型和声学模型进行联合形成新的声学模型;
步骤4:在新的声学模型中引入说话人信息,形成个性化语音合成模型,支持多人个性化语音合成;
在所述步骤1中,所述层次化韵律预测模型包括编码模块和多任务学习模块,所述编码模块:将输入文本输入预训练的BERT语言模型,得到文本的上下文表示,将其与输入文本对应的拼音、词法句法特征表示进行拼接,然后经多层全连接网络进行编码;所述多任务学习模块是一个层次化的基于双向门控循环网络的条件随机场模型:将文本韵律分为四层,对于每一层的韵律,采用将低层韵律预测结果和编码层输出经全连接网络转换后输入条件随机场模型BiGRU-CRF预测下一层的方式实现。
2.根据权利要求1所述的中文语音合成方法,其特征在于,在所述步骤2中,所述声学模型包括编码单元和解码模块,
所述编码单元:将输入语句编码成上下文语义表示,在Transformer模块的基础上引入一个门控线性单元来增强对信息流的控制和三个卷积模块来建模局部信息;
所述解码模块:自回归生成最终的语音特征谱图;包括一个注意力机制模块,通过注意力机制学习输入序列和输出序列的映射关系。
3.根据权利要求2所述的中文语音合成方法,其特征在于,所述门控线性单元用于对信息流进行控制;所述三个卷积模块分别为两个仿Inception网络分支结构和深度可分离卷积模块;
所述仿Inception网络分支结构:用于对特征层面进行多粒度融合;
所述深度可分离卷积模块:用于对特征层面的深度和空间的信息进行解耦。
4.根据权利要求2所述的中文语音合成方法,其特征在于,在所述注意力机制模块中,采用基于前向的注意力机制保持声学模型的注意力对齐路径单调递进,同时使用对角注意力损失来促进声学模型的收敛速度。
5.根据权利要求4所述的中文语音合成方法,其特征在于,在所述注意力机制模块中,前向注意力机制保证当前解码时刻的注意力状态只能由前一时刻前一编码步位置或者相同编码步位置的注意力状态转移而来,确保了声学模型在学习对齐时,注意力权重对齐路径保持单调递进。
6.根据权利要求1-5任一项所述的中文语音合成方法,其特征在于,通过三种优化步骤对声学模型进行优化,三种优化步骤分别为差分损失优化步骤、波形损失优化步骤、混合输入优化步骤,
所述差分损失优化步骤:首先将真实谱图和合成谱图经过一阶差分计算得到对应处理图像,然后再对其两者进行均方差损失操作;
所述波形损失优化步骤:首先通过声码器将真实谱图和语音特征谱图转换成对应的波形,然后计算两个波形之间的失真程度当作波形损失,使得声学模型生成的谱图经过相位重建之后的音频更接近原始音频;
所述混合输入优化步骤:将预测信息和真实信息混合作为解码模块的输入。
7.根据权利要求6所述的中文语音合成方法,其特征在于,在所述混合输入优化步骤中,在训练时刻,在每一个解码时刻采取上一时刻的预测值和该时刻的真实值的拼接作为解码模块的输入;在推理时刻,在每一个解码时刻,将上一时刻的预测值进行复制拼接的值作为解码模块的输入。
8.一种中文语音合成系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-7中任一项所述的中文语音合成方法的步骤。
9.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-7中任一项所述的中文语音合成方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110667531.6/1.html,转载请声明来源钻瓜专利网。