[发明专利]语音合成方法、电子设备及存储介质在审

申请号：	202110801188.X	申请日：	2021-07-15
公开（公告）号：	CN113539237A	公开（公告）日：	2021-10-22
发明（设计）人：	于鹏伟	申请（专利权）人：	思必驰科技股份有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10L13/02;G10L13/033;H04M1/72433;H04M1/72469
代理公司：	北京商专永信知识产权代理事务所(普通合伙) 11400	代理人：	黄谦;车江华
地址：	215123 江苏省苏州市苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成方法电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种语音合成方法，应用于服务器，该方法包括：获取待合成文本；获取目标说话人特征参数；将所述待合成文本和所述目标说话人特征参数输入至通用语音合成模型得到具有目标说话人音色的合成音频。本发明的语音合成方法在服务器执行，在合成具有目标说话人音色的合成音频时，无需配置目标说话人专属的语音合成模型，只需要将待合成文本和目标说话人特征参数输入至通用语音合成模型即可。由此本发明的语音合成方法只需要预先准备目标说话人特征参数即可基于通用语音合成模型合成对应于待合成文本的合成音频。

技术领域

本发明涉及语音合成技术领域，尤其涉及一种语音合成方法、电子设备及存储介质。

背景技术

随着语音人机对话技术的在智能终端的不断推广应用，为了提升用户体验出现了由用户定制智能终端音色的功能。例如，对于智能音箱，用户可以根据自己的需求将智能音箱的音色设置成自己熟悉的人(例如，自己的妻子)的音色。要实现该音色定制功能，通常情况下是用户在智能音箱录制目标说话人的音频并提交至服务器端，然后在服务器端利用该目标说话人的录制音频训练得到可以合成具有目标说话人音色的语音的目标语音合成模型。

然而发明人在实现本发明的过程中发现，随着智能音箱用户的不断增多，越来越多的用户定制智能音箱的音色，这样就需要在服务器端训练并存储越来越多的目标语音合成模型。即，每个人的个性化音色定制，在服务器端都要提供相应的语音合成模型。如果有几百万、甚至上千万台智能终端的话，就可能会有相应数量的语音合成模型。如果要保证语音合成服务质量的话就需要增设巨大数量的服务器，这极大的增加了服务成本。

发明内容

本发明实施例提供一种语音合成方法、电子设备及存储介质，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音合成方法，应用于服务器，所述方法包括：

获取待合成文本；

获取目标说话人特征参数；

将所述待合成文本和所述目标说话人特征参数输入至通用语音合成模型得到具有目标说话人音色的合成音频。

在一些实施例中，所述获取目标说话人特征参数，包括：从预设说话人特征参数库中获取目标说话人特征参数。

在一些实施例中，所述预设说话人特征参数库中包括多个说话人特征参数和相应的多个说话人身份信息。

在一些实施例中，从预设说话人特征参数库中获取目标说话人特征参数，包括：根据目标说话人身份信息从预设说话人特征参数库中获取目标说话人特征参数。

在一些实施例中，所述预设说话人特征参数库中的说话人特征参数通过以下步骤得到：

接收说话人的录制音频；

根据所述说话人的录制音频对通用语音合成模型进行自适应训练得到对应于所述说话人的说话人特征参数。