[发明专利]语音合成方法、装置、设备及存储介质在审

申请号：	202110218672.X	申请日：	2021-02-26
公开（公告）号：	CN112786009A	公开（公告）日：	2021-05-11
发明（设计）人：	孙奥兰;王健宗;程宁	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L13/047	分类号：	G10L13/047;G10L13/10;G10L25/18;G10L25/30
代理公司：	深圳市力道知识产权代理事务所(普通合伙) 44507	代理人：	张传义
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能技术领域，公开了一种语音合成方法、装置、计算机设备及计算机可读存储介质，该方法包括：通过获取待处理文本和待合成说话风格音频，并将所述待处理文本和所述待合成说话风格音频输入预置语音合成模型，基于所述多参考编码器对所述待合成说话风格音频进行编码，得到风格嵌入向量信息；基于所述文本编码器对所述待处理文本进行编码，得到文本编码向量信息；通过所述全连接层对所述风格嵌入向量信息和所述文本编码向量信息进行拼接，生成梅尔语谱图；通过所述输出层对所述梅尔语谱图进行特征提取，并输出所述待处理文本的目标音频，实现对合成的语音进行说话风格的控制,合成更多情绪表达的语音。

技术领域

本申请涉及语音语义技术领域，尤其涉及一种语音合成方法、装置、计算机设备及计算机可读存储介质。

背景技术

在语音合成的过程中，不仅要考虑合成语音的清晰度和流畅度，还要考虑合成语音的韵律信息，使得合成的语音具有丰富的情绪表达。在合成语音时，不仅仅单纯考虑语句的平滑度，还要考虑改变说话者的情绪状态，利用模型来学习参考音频的风格信息，从而达到可以与人声相媲美的程度。而目前的韵律模型构建中，常用的方法是将所有的说话风格归为一种表达，不能对说话风格进行分离，所以无法对说话风格进行单独控制，合成语音的情绪表达十分单一。

发明内容

本申请的主要目的在于提供一种语音合成方法、装置、计算机设备及计算机可读存储介质，旨在解决现有无法对说话风格进行单独控制，合成语音的情绪表达十分单一的技术问题。

第一方面，本申请提供一种语音合成方法，所述语音合成方法包括以下步骤：

获取待处理文本和待合成说话风格音频，并将所述待处理文本和所述待合成说话风格音频输入预置语音合成模型，其中，所述预置语音合成模型包括多参考编码器、文本编码器、全连接层和输出层；

基于所述多参考编码器对所述待合成说话风格音频进行编码，得到风格嵌入向量信息；

基于所述文本编码器对所述待处理文本进行编码，得到文本编码向量信息；

通过所述全连接层对所述风格嵌入向量信息和所述文本编码向量信息进行拼接，生成梅尔语谱图；

通过所述输出层对所述梅尔语谱图进行特征提取，并输出所述待处理文本的目标音频。

第二方面，本申请还提供一种语音合成装置，所述语音合成装置包括：

第一获取模块，用于获取待处理文本和待合成说话风格音频，并将所述待处理文本和所述待合成说话风格音频输入预置语音合成模型，其中，所述语音合成模型包括多参考编码器、文本编码器、全连接层和输出层；

第二获取模块，用于基于所述多参考编码器对所述待合成说话风格音频进行编码，得到风格嵌入向量信息；

第三获取模块，用于基于所述文本编码器对所述待处理文本进行编码，得到文本编码向量信息；