[发明专利]一种基于音色克隆的语音合成方法、装置及电子设备有效

申请号：	202011211468.7	申请日：	2020-11-03
公开（公告）号：	CN112037755B	公开（公告）日：	2021-02-02
发明（设计）人：	张彤彤	申请（专利权）人：	北京淇瑀信息科技有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/04;G10L13/033
代理公司：	北京清诚知识产权代理有限公司 11691	代理人：	乔东峰
地址：	100012 北京市朝阳***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于音色克隆语音合成方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于音色克隆的语音合成方法、装置及电子设备，所述方法包括：通过开源语料训练TTS基础模型；通过目标音色语料以微调finetune的方式训练所述基础模型，得到微调模型；根据变量语料和所述微调模型生成目标音色的变量语音；根据所述变量语音和固定语音合成目标音色语音。本发明先采用开源语料，再通过少量目标音色语料以微调finetune的方式训练TTS网络的微调模型。相较于穷举式的人工录制，或者是传统的TTS高质量语料合成方式，能有效减小目标音色语料的录制时间，大大节约录制成本。

技术领域

本发明涉及语音智能技术领域，具体而言，涉及一种基于音色克隆的语音合成方法、装置、电子设备及计算机可读介质。

背景技术

在智能语音交互过程中，语音机器人通常会采用预设的话术与用户进行语音交互。其中，预设话术一般由固定语音和变量语音合成。固定语音是对所有用户通用的语音，变量语音是对单个用户需要改变的语音。例如，在预设话术“您好！xx先生。”中，“您好”和“先生”对所有男性用户均可使用，属于固定语音；而“xx”需要根据每位男性用户的姓名进行改变，因此属于变量语音。

现有技术中，固定语音是预先找专业的录音师录制好的，而变量语音的一种生成方法是先根据产品将变量语音缩减到可穷举的范围，然后找录音师录制所有穷举的变量语音。这种方式需要缩减变量语音到可穷举范围，其本身在业务上就是一种折衷；而且录制大量变量语音的时间和经济成本消耗也很高。变量语音的另一种生成方法是通过从文本到语音（Text-To-Speech，TTS）合成录音师音色的声音，之后再将变量语音和固定语音拼接到一起。但目前主流的TTS方法都是基于端到端的网络，比如tactron2， transformer tts，fastspeech等。一般需要找录音师录制10小时以上的高质量语料，然后训练TTS网络和vocoder（声码器）网络进行合成。10小时高质量语料需要专业设备进行录制，并且需要专业人士的监听，仍然需要消耗大量的时间和经济成本。

发明内容

本发明旨在解决合成目标音色的变量语音耗时、且经济成本高的技术问题。

为了解决上述技术问题，本发明第一方面提出一种基于音色克隆的语音合成方法，所述方法包括：

通过开源语料训练TTS基础模型；

通过目标音色语料以微调finetune的方式训练所述基础模型，得到微调模型；

根据变量语料和所述微调模型生成目标音色的变量语音；

根据所述变量语音和固定语音合成目标音色语音。

根据本发明一种优选的实施方式，所述通过开源语料训练基础模型之前，所述方法还包括：

获取第一性别的开源语料；

所述通过目标音色语料以微调finetune的方式训练所述基础模型之前，所述方法还包括：

获取第一性别的目标音色语料。

根据本发明一种优选的实施方式，所述根据变量语料和所述微调模型生成目标音色的变量语音包括：