[发明专利]语音合成方法、装置、终端及存储介质在审
申请号: | 201980003388.1 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111164674A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 李贤;黄东延;丁万;张皓;白洛玉;熊友军 | 申请(专利权)人: | 深圳市优必选科技股份有限公司 |
主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L13/08;G10L13/10;G10L25/30 |
代理公司: | 深圳中细软知识产权代理有限公司 44528 | 代理人: | 彭佳伟 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 终端 存储 介质 | ||
本发明实施例公开了一种语音合成方法,所述方法包括:获取待合成文本;获取所述待合成文本的文本特征,所述文本特征包括分词特征、多音字特征和/或韵律特征中的至少一个;将所述文本特征输入预设的时长预测模型,获取与所述文本特征对应的时长特征;将所述文本特征和所述时长特征输入预设的声学模型,获取与所述待合成文本对应的语音特征;将所述语音特征转换成语音,生成与所述待合成文本对应的目标语音。本发明提供的语音合成方法考虑了多种文本特征和时长特征生成的语音特征,使得合成的语音更加准确,提高了语音合成的准确性,提高了用户体验。此外,还提出了一种语音合成装置、终端及存储介质。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语音合成方法、装置、智能终端及计算机可读存储介质。
背景技术
随着移动互联网和人工智能技术的快速发展,语音播报、听小说、听新闻、智能交互等一系列语音合成的场景越来越多。语音合成可以将文本等转换成自然语音输出。
现有技术中语音合成多采用统计参数合成法,对于引得频谱特性参数进行建模,生成参数合成器,来构建文本序列映射到语音的映射关系,然后统计模型来产生每时每刻的语音参数(包括基频、共振峰频率等),然后把这些参数转化为语音对应的相关特征,最后生成输出的语音。但是上述语音合成方法中,每个步骤对应的单一子模块的计算结果不一定全部都是最优效果,从而导致了无法将文本准确转换为适应多语言、多音色场景的语音,影响了整体上的语音合成的质量,极大影响用户体验。
也就是说,上述语音合成的方案中,因为单一子模块计算结果非最优的问题导致了最终合成的语音的质量不足。
发明内容
基于此,有必要针对上述问题,提出了一种语音合成方法、装置、智能终端及计算机可读存储介质。
在本发明的第一方面,提出了一种语音合成方法。
一种语音合成方法,包括:
获取待合成文本;
获取所述待合成文本的文本特征,所述文本特征包括分词特征、多音字特征和/或韵律特征中的至少一个;
将所述文本特征输入预设的时长预测模型,获取与所述文本特征对应的时长特征;
将所述文本特征和所述时长特征输入预设的声学模型,获取与所述待合成文本对应的语音特征;
将所述语音特征转换成语音,生成与所述待合成文本对应的目标语音。
在一个实施例中,所述获取所述待合成文本的文本特征的步骤之前,还包括:对所述待合成文本进行正则化处理。
在一个实施例中,所述获取所述待合成文本的文本特征的步骤还包括:将所述待合成文本输入预设的分词模型,获取与所述待合成文本对应的分词特征;将所述待合成文本和/或所述分词特征输入预设的多音字预测模型,获取所述待合成文本对应的多音字特征;将所述待合成文本和/或所述分词特征输入预设的韵律预测模型,获取所述待合成文本对应的韵律特征。
在一个实施例中,所述方法还包括:获取训练样本集,所述训练样本集包含多个训练文本以及对应的文本参考特征、时长参考特征和/或语音参考特征;将所述训练文本对应的文本参考特征作为所述时长预测模型的输入,所述时长参考特征作为时长预测模型的输出,对所述时长预测模型进行训练;将所述文本参考特征和所述时长参考特征作为所述声学模型的输入,所述语音参考特征作为声学模型的输出,对所述声学模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市优必选科技股份有限公司,未经深圳市优必选科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980003388.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种显示基板及显示装置
- 下一篇:乒乓球拍