[发明专利]一种语音合成方法、装置、智能终端及可读介质有效
申请号: | 201980003174.4 | 申请日: | 2019-12-23 |
公开(公告)号: | CN111133507B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 黄东延;盛乐园;熊友军 | 申请(专利权)人: | 深圳市优必选科技股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L25/03;G10L25/27 |
代理公司: | 深圳中细软知识产权代理有限公司 44528 | 代理人: | 彭佳伟 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 方法 装置 智能 终端 可读 介质 | ||
本发明公开了一种语音合成方法,包括:获取待合成文本,根据预设的语音特征提取算法提取待合成文本的待处理梅尔频谱特征;将待处理梅尔频谱特征输入预设的ResUnet网络模型,获取第一中间特征;对待处理梅尔频谱特征进行平均池化处理和第一下采样处理,获取第二中间特征,以第二中间特征和ResUnet网络模型输出的第一中间特征为输入,进行反卷积处理和第一上采样处理,获取与待处理梅尔频谱特征对应的目标梅尔频谱特征;将目标梅尔频谱特征转换为语音,生成与待合成文本对应的目标语音。此外,本发明还公开了一种语音合成装置、智能终端及计算机可读存储介质。采用本发明,可以提高文本的梅尔频谱特征预测的准确性,提高语音合成的准确性。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语音合成方法、装置、智能终端及可读介质。
背景技术
随着移动互联网和人工智能技术的快速发展,语音播报、听小说、听新闻、智能交互等一系列语音合成的场景越来越多。语音合成可以将文本、文字等转换成自然语音输出。
一般来讲,语音合成系统包括了文本分析阶段和合成语音阶段,深度学习可以将文本分析阶段和合成语音阶段整合到一个端对端的模型中。其中,端对端的模型主要由两步完成,第一步是将文本映射到语音特征,第二步是将语音特征转换成合成的语音。并且在各种语音合成以及语音特征提取的方法中,梅尔频谱特征可以作为文本和语音之间转换的中间特征变量,较好的实现从文本到语音的合成的过程。
但是,在相关技术方案中,对文本进行分析提取得到的梅尔频谱特征相对于真实语音对应的梅尔频谱特征来讲,缺少了很多丰富的信息,与真实的梅尔频谱特征之间存在一定的差距;从而导致了根据该梅尔频谱特征合成的语音发音不够自然。
也就是说,上述语音合成的方案中,因为梅尔频谱特征与真实的梅尔频谱特征之间的差异导致了合成的语音的准确性不足。
发明内容
基于此,有必要针对上述问题,提出了一种语音合成方法、装置、智能终端及计算机可读存储介质。
在本发明的第一方面,提出了一种语音合成方法。
一种语音合成方法,包括:
获取待合成文本,根据预设的语音特征提取算法提取所述待合成文本的待处理梅尔频谱特征;
将所述待处理梅尔频谱特征输入预设的ResUnet网络模型,获取第一中间特征;
对所述待处理梅尔频谱特征进行平均池化处理和第一下采样处理,获取第二中间特征,以所述第二中间特征和所述ResUnet网络模型输出的所述第一中间特征为输入,进行反卷积处理和第一上采样处理,获取与所述待处理梅尔频谱特征对应的目标梅尔频谱特征;
将所述目标梅尔频谱特征转换为语音,生成与所述待合成文本对应的目标语音。
在本发明的第二方面,提出了一种语音合成装置。
一种语音合成装置,包括:
特征提取模块,用于获取待合成文本,根据预设的语音特征提取算法提取所述待合成文本的待处理梅尔频谱特征;
ResUnet模块,用于将所述待处理梅尔频谱特征输入预设的ResUnet网络模型,获取第一中间特征;
后置处理模块,用于对所述待处理梅尔频谱特征进行平均池化处理和第一下采样处理,获取第二中间特征,以所述第二中间特征和所述ResUnet网络模型输出的所述第一中间特征为输入,进行反卷积处理和第一上采样处理,获取与所述待处理梅尔频谱特征对应的目标梅尔频谱特征;
语音合成模块,用于将所述目标梅尔频谱特征转换为语音,生成与所述待合成文本对应的目标语音。
在本发明的第三方面,提出了一种智能终端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市优必选科技股份有限公司,未经深圳市优必选科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980003174.4/2.html,转载请声明来源钻瓜专利网。