[发明专利]用于语音合成系统的韵律与声学联合建模的方法及装置有效
申请号: | 201510315459.5 | 申请日: | 2015-06-10 |
公开(公告)号: | CN104916284B | 公开(公告)日: | 2017-02-22 |
发明(设计)人: | 康永国;付晓寅 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L13/10;G10L13/02 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语音 合成 系统 韵律 声学 联合 建模 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,特别涉及一种用于语音合成系统的韵律与声学联合建模的方法及装置。
背景技术
语音合成是通过机械的、电子的方法产生人造语音的技术,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的语音输出的技术。语音合成的目的是将文本转换为语音播放给用户,目标是达到真人文本播报的效果。
在语音合成的过程中要用到两个模型,韵律模型和声学模型,这两个模型是通过对训练数据进行训练所建立的,目前这两个模型的训练过程是独立的,并且所建立的韵律模型是一种离散的韵律模型,该韵律模型所预测出的韵律特征是离散的。
目前韵律模型和声学模型独立建模存在的问题是韵律模型预测出的韵律层级仅有几种停顿层级,所合成的语音在韵律停顿上带有明显的阶梯性,在韵律模型预测出的韵律停顿层级发生错误时,所合成的语音在韵律停顿上的阶梯性尤其明显,合成语音的自然流畅度上和真人播放存在较大差距,用户听到的语音不够流畅,用户体验不理想。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的第一个目的在于提出一种用于语音合成系统的韵律与声学联合建模的方法,该方法提供了一种联合建立连续韵律预测模型和声学预测模型的建模方式,通过该方式所建立的模型可以让生成的声学参数在韵律表现上更加连续自然,进而可使合成语音更加流畅自然。
本发明的第二个目的在于提出一种用于语音合成系统的韵律与声学联合建模的装置。
为实现上述目的,本发明第一方面实施例的用于语音合成系统的韵律与声学联合建模的方法,包括:根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型,其中,所述第一文本特征集合用于训练所述连续韵律预测模型,所述第二文本特征集合用于训练声学预测模型,所述第一韵律标注集合和所述第二韵律标注集合分别与所述第一文本特征集合和第二文本特征集合对应;根据所述第二文本特征集合通过所述连续韵律预测模型预测所述第二文本特征集合对应的连续韵律特征集合;以及根据所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行声学训练以生成所述声学预测模型,其中,所述声学参数集合与所述第二文本特征集合对应。
本发明实施例的用于语音合成系统的韵律与声学联合建模的方法,首先根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型,然后根据第二文本特征集合通过连续韵律预测模型预测第二文本特征集合对应的连续韵律特征集合,以及根据第二文本特征集合、连续韵律特征集合和声学参数集合进行声学训练以生成声学预测模型,由此,提供了一种联合建立连续韵律预测模型和声学预测模型的建模方式,通过该方式所建立的模型可以让生成的声学参数在韵律表现上更加连续自然,进而可使合成语音更加流畅自然。
为实现上述目的,本发明第二方面实施例的用于语音合成系统的韵律与声学联合建模的装置,包括:第一生成模块,用于根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型,其中,所述第一文本特征集合用于训练所述连续韵律预测模型,所述第二文本特征集合用于训练声学预测模型,所述第一韵律标注集合和所述第二韵律标注集合分别与所述第一文本特征集合和第二文本特征集合对应;预测模块,用于根据所述第二文本特征集合通过所述连续韵律预测模型预测所述第二文本特征集合对应的连续韵律特征集合;以及第二生成模块,用于根据所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行声学训练以生成所述声学预测模型,其中,所述声学参数集合与所述第二文本特征集合对应。
本发明实施例的用于语音合成系统的韵律与声学联合建模的装置,第一生成模块根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型,然后预测模块根据第二文本特征集合通过连续韵律预测模型预测第二文本特征集合对应的连续韵律特征集合,以及第二生成模块根据第二文本特征集合、连续韵律特征集合和声学参数集合进行声学训练以生成声学预测模型,由此,提出了一种联合建立连续韵律预测模型和声学预测模型的建模方式,通过该方式所建立的模型可以让生成的声学参数在韵律表现上更加连续自然,进而可使合成语音更加流畅自然。
附图说明
图1是根据本发明一个实施例的用于语音合成系统的韵律与声学联合建模的方法的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510315459.5/2.html,转载请声明来源钻瓜专利网。