[发明专利]用于语音合成的韵律模型训练方法和装置有效
申请号: | 201510337430.7 | 申请日: | 2015-06-17 |
公开(公告)号: | CN104867491B | 公开(公告)日: | 2017-08-18 |
发明(设计)人: | 徐扬凯;李秀林 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L13/10 | 分类号: | G10L13/10 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语音 合成 韵律 模型 训练 方法 装置 | ||
技术领域
本发明涉及文语转换技术领域,尤其涉及一种用于语音合成的韵律模型训练方法和装置。
背景技术
语音合成,又称文语转换技术,是一种能够将文字信息转化为语音并进行朗读的技术。随着科技的不断进步,语音合成的应用越来越广泛,如新闻与信息的播报、有声小说等。在日常生活中,也可通过语音合成,将短信、邮件等信息合成为语音,为用户多提供一种获取信息的方式。
在语音合成系统中,韵律预测是整个系统的基础,如果韵律停顿预测错误会直接影响语音合成的效果。例如:合成文本为“如果路人递给它一个空瓶”,正确韵律应为“如果#1路人#1递给#1它#2一个#1空瓶”,而真实的韵律预测结果为“如果#1路人#1递给#2它#1一个#1空瓶”,其中的#1表示小停顿,#2表示大停顿。韵律停顿预测错误造成了该语句最终的合成效果不够流畅自然,从而导致用户使用体验差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种用于语音合成的韵律模型训练方法,该方法能够完善韵律模型,提升韵律预测的准确性。
本发明的第二个目的在于提出一种语音合成方法。
本发明的第三个目的在于提出一种用于语音合成的韵律模型训练装置。
本发明的第四个目的在于提出一种语音合成装置。
为了实现上述目的,本发明第一方面实施例提出了一种用于语音合成的韵律模型训练方法,包括:S1、从训练语料文本中提取分词对应的文本特征和标记特征;S2、基于同义词词林对所述训练语料文本中的分词进行泛化;以及S3、根据所述文本特征、所述标记特征以及泛化后的分词,对所述韵律模型进行训练。
本发明实施例的用于语音合成的韵律模型训练方法,通过从训练语料文本中提取分词对应的文本特征和标记特征,基于同义词词林对训练语料文本中的多个分词进行泛化,然后根据文本特征、标记特征以及泛化后的分词,对韵律模型进行训练,使得韵律模型更加完善,进而提升韵律预测的准确性。
本发明第二方面实施例提出了一种语音合成方法,包括:S4、从待预测文本中提取文本特征,并将所述文本特征输入所述韵律模型;S5、根据所述韵律模型对所述待预测文本进行韵律预测;S6、进一步对所述待预测文本进行声学预测,以生成声学参数序列;以及S7、对所述声学参数序列进行拼接,以生成语音合成结果。
本发明实施例的语音合成方法,通过从待预测文本中提取文本特征,并将文本特征输入韵律模型,根据韵律模型对待预测文本进行韵律预测,进一步对待预测文本进行声学预测,以生成声学参数序列,以及对声学参数序列进行拼接,以生成语音合成结果,基于同义词词林的韵律模型,提升了韵律预测的准确性,从而使韵律停顿更加流畅自然,提升用户使用体验。
本发明第三方面实施例提出了一种用于语音合成的韵律模型训练装置,包括:提取模块,用于从训练语料文本中提取分词对应的文本特征和标记特征;泛化模块,用于基于同义词词林对所述训练语料文本中的分词进行泛化;以及训练模块,用于根据所述文本特征、所述标记特征以及泛化后的分词,对所述韵律模型进行训练。
本发明实施例的用于语音合成的韵律模型训练装置,通过从训练语料文本中提取分词对应的文本特征和标记特征,基于同义词词林对训练语料文本中的多个分词进行泛化,然后根据文本特征、标记特征以及泛化后的分词,对韵律模型进行训练,使得韵律模型更加完善,进而提升韵律预测的准确性。
本发明第四方面实施例提出了一种语音合成装置,包括:提取模块,用于从待预测文本中提取文本特征,并将所述文本特征输入所述韵律模型;韵律预测模块,用于根据所述韵律模型对所述待预测文本进行韵律预测;声学预测模块,用于进一步对所述待预测文本进行声学预测,以生成声学参数序列;以及生成模块,用于对所述声学参数序列进行拼接,以生成语音合成结果。
本发明实施例的语音合成装置,通过从待预测文本中提取文本特征,并将文本特征输入韵律模型,根据韵律模型对待预测文本进行韵律预测,进一步对待预测文本进行声学预测,以生成声学参数序列,以及对声学参数序列进行拼接,以生成语音合成结果,基于同义词词林的韵律模型,提升了韵律预测的准确性,从而使韵律停顿更加流畅自然,提升用户使用体验。
附图说明
图1是根据本发明一个实施例的用于语音合成的韵律模型训练方法的流程图。
图2是根据本发明一个实施例的语音合成方法的流程图。
图3是根据本发明一个实施例的用于语音合成的韵律模型训练装置的结构示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510337430.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于小波变换的多重分形维数端点检测方法
- 下一篇:多功能音频信号产生设备