[发明专利]一种基于文本的自动化语音合成方法在审
申请号: | 202010504747.6 | 申请日: | 2020-06-05 |
公开(公告)号: | CN111696518A | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 彭寒兵;武钧 | 申请(专利权)人: | 四川纵横六合科技股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/10 |
代理公司: | 成都聚蓉众享知识产权代理有限公司 51291 | 代理人: | 张辉 |
地址: | 610000 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 自动化 语音 合成 方法 | ||
本发明公开了一种基于文本的自动化语音合成方法,属于文本语音合成技术领域,目的在于提供一种基于文本的自动化语音合成方法,解决现有的语音合成系统无法生成用户对应音色音调的语音的问题。其包括以下步骤:(1)语音合成系统根据输入的文本和对应用户的语音,自动学习文本与语音之间的对应关系,并学习用户语音的语调特征、语速特征、停顿特征;(2)输入待合成语音的文本;(3)基于深度学习后的语音合成系统根据输入的待合成语音的文本,结合用户语音的语调特征、语速特征、停顿特征定制化的生成用户对应音色音调的语音。本发明适用于基于文本的自动化语音合成方法。
技术领域
本发明属于文本语音合成技术领域,具体涉及一种基于文本的自动化语音合成方法。
背景技术
随着移动互联网和人工智能技术的快速发展,语音播报、听小说、听新闻、智能交互等一系列语音合成的场景越来越多。
目前,语音合成系统在对文本进行语音合成时,首先对输入的文本进行归一化预处理,然后对文本进行分词、词性标注、注音等操作,再对文本进行韵律等级的预测,以及预测声学参数,最后输出最终的语音结果。
但是,现有语音合成系统生成的语音多为模板化语音,普遍存在语音不连续和不自然的现象,同时无法生成用户对应音色音调的语音,不具备深度学习的功能,无法满足使用需求。
因此,如何解决现有的语音合成系统无法生成用户对应音色音调的语音的问题,具有重要的研究意义。
发明内容
本发明的目的在于:提供一种基于文本的自动化语音合成方法,解决现有的语音合成系统无法生成用户对应音色音调的语音的问题。
本发明采用的技术方案如下:
一种基于文本的自动化语音合成方法,包括以下步骤:
(1)语音合成系统根据输入的文本和对应用户的语音,自动学习文本与语音之间的对应关系,并学习用户语音的语调特征、语速特征、停顿特征;
(2)输入待合成语音的文本;
(3)基于深度学习后的语音合成系统根据输入的待合成语音的文本,结合用户语音的语调特征、语速特征、停顿特征定制化的生成用户对应音色音调的语音。
进一步地,所述语音合成系统可识别的文本和生产语音的类型为英文。
进一步地,所述语音合成系统可识别的文本和生产语音的类型为中文。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明中,通过语音合成系统深度学习文本与语音之间的对应关系,并学习用户语音的语调特征、语速特征、停顿特征,从而可以根据文本内容结合用户语音的语调特征、语速特征、停顿特征定制化的生成用户对应音色音调的语音,同时其适用于多种语言,适用范围广,生成的语音准确度高、清晰度高,有效解决了现有的语音合成系统无法生成用户对应音色音调的语音的问题。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
一种基于文本的自动化语音合成方法,包括以下步骤:
(1)语音合成系统根据输入的文本和对应用户的语音,自动学习文本与语音之间的对应关系,并学习用户语音的语调特征、语速特征、停顿特征;
(2)输入待合成语音的文本;
(3)基于深度学习后的语音合成系统根据输入的待合成语音的文本,结合用户语音的语调特征、语速特征、停顿特征定制化的生成用户对应音色音调的语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川纵横六合科技股份有限公司,未经四川纵横六合科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010504747.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种浏览器防泄密方法和系统
- 下一篇:一种破碎机刀具及刀轴结构及破碎机