[发明专利]一种语音合成方法、装置、智能终端及可读介质有效

申请号：	201980003174.4	申请日：	2019-12-23
公开（公告）号：	CN111133507B	公开（公告）日：	2023-05-23
发明（设计）人：	黄东延;盛乐园;熊友军	申请（专利权）人：	深圳市优必选科技股份有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L25/03;G10L25/27
代理公司：	深圳中细软知识产权代理有限公司 44528	代理人：	彭佳伟
地址：	518000 广东省深圳市南山区***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音合成方法装置智能终端可读介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种语音合成方法，包括：获取待合成文本，根据预设的语音特征提取算法提取待合成文本的待处理梅尔频谱特征；将待处理梅尔频谱特征输入预设的ResUnet网络模型，获取第一中间特征；对待处理梅尔频谱特征进行平均池化处理和第一下采样处理，获取第二中间特征，以第二中间特征和ResUnet网络模型输出的第一中间特征为输入，进行反卷积处理和第一上采样处理，获取与待处理梅尔频谱特征对应的目标梅尔频谱特征；将目标梅尔频谱特征转换为语音，生成与待合成文本对应的目标语音。此外，本发明还公开了一种语音合成装置、智能终端及计算机可读存储介质。采用本发明，可以提高文本的梅尔频谱特征预测的准确性，提高语音合成的准确性。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音合成方法、装置、智能终端及可读介质。

背景技术

随着移动互联网和人工智能技术的快速发展，语音播报、听小说、听新闻、智能交互等一系列语音合成的场景越来越多。语音合成可以将文本、文字等转换成自然语音输出。

一般来讲，语音合成系统包括了文本分析阶段和合成语音阶段，深度学习可以将文本分析阶段和合成语音阶段整合到一个端对端的模型中。其中，端对端的模型主要由两步完成，第一步是将文本映射到语音特征，第二步是将语音特征转换成合成的语音。并且在各种语音合成以及语音特征提取的方法中，梅尔频谱特征可以作为文本和语音之间转换的中间特征变量，较好的实现从文本到语音的合成的过程。

但是，在相关技术方案中，对文本进行分析提取得到的梅尔频谱特征相对于真实语音对应的梅尔频谱特征来讲，缺少了很多丰富的信息，与真实的梅尔频谱特征之间存在一定的差距；从而导致了根据该梅尔频谱特征合成的语音发音不够自然。

也就是说，上述语音合成的方案中，因为梅尔频谱特征与真实的梅尔频谱特征之间的差异导致了合成的语音的准确性不足。

发明内容

基于此，有必要针对上述问题，提出了一种语音合成方法、装置、智能终端及计算机可读存储介质。

在本发明的第一方面，提出了一种语音合成方法。

一种语音合成方法，包括：

获取待合成文本，根据预设的语音特征提取算法提取所述待合成文本的待处理梅尔频谱特征；

将所述待处理梅尔频谱特征输入预设的ResUnet网络模型，获取第一中间特征；

对所述待处理梅尔频谱特征进行平均池化处理和第一下采样处理，获取第二中间特征，以所述第二中间特征和所述ResUnet网络模型输出的所述第一中间特征为输入，进行反卷积处理和第一上采样处理，获取与所述待处理梅尔频谱特征对应的目标梅尔频谱特征；

将所述目标梅尔频谱特征转换为语音，生成与所述待合成文本对应的目标语音。

在本发明的第二方面，提出了一种语音合成装置。

一种语音合成装置，包括：