[发明专利]一种基于音色克隆的语音合成方法、装置及电子设备有效
申请号: | 202011211468.7 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112037755B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 张彤彤 | 申请(专利权)人: | 北京淇瑀信息科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/033 |
代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 乔东峰 |
地址: | 100012 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 音色 克隆 语音 合成 方法 装置 电子设备 | ||
本发明公开了一种基于音色克隆的语音合成方法、装置及电子设备,所述方法包括:通过开源语料训练TTS基础模型;通过目标音色语料以微调finetune的方式训练所述基础模型,得到微调模型;根据变量语料和所述微调模型生成目标音色的变量语音;根据所述变量语音和固定语音合成目标音色语音。本发明先采用开源语料,再通过少量目标音色语料以微调finetune的方式训练TTS网络的微调模型。相较于穷举式的人工录制,或者是传统的TTS高质量语料合成方式,能有效减小目标音色语料的录制时间,大大节约录制成本。
技术领域
本发明涉及语音智能技术领域,具体而言,涉及一种基于音色克隆的语音合成方法、装置、电子设备及计算机可读介质。
背景技术
在智能语音交互过程中,语音机器人通常会采用预设的话术与用户进行语音交互。其中,预设话术一般由固定语音和变量语音合成。固定语音是对所有用户通用的语音,变量语音是对单个用户需要改变的语音。例如,在预设话术“您好!xx先生。”中,“您好”和“先生”对所有男性用户均可使用,属于固定语音;而“xx”需要根据每位男性用户的姓名进行改变,因此属于变量语音。
现有技术中,固定语音是预先找专业的录音师录制好的,而变量语音的一种生成方法是先根据产品将变量语音缩减到可穷举的范围,然后找录音师录制所有穷举的变量语音。这种方式需要缩减变量语音到可穷举范围,其本身在业务上就是一种折衷;而且录制大量变量语音的时间和经济成本消耗也很高。变量语音的另一种生成方法是通过从文本到语音(Text-To-Speech,TTS)合成录音师音色的声音,之后再将变量语音和固定语音拼接到一起。但目前主流的TTS方法都是基于端到端的网络,比如tactron2, transformer tts,fastspeech等。一般需要找录音师录制10小时以上的高质量语料,然后训练TTS网络和vocoder(声码器)网络进行合成。10小时高质量语料需要专业设备进行录制,并且需要专业人士的监听,仍然需要消耗大量的时间和经济成本。
发明内容
本发明旨在解决合成目标音色的变量语音耗时、且经济成本高的技术问题。
为了解决上述技术问题,本发明第一方面提出一种基于音色克隆的语音合成方法,所述方法包括:
通过开源语料训练TTS基础模型;
通过目标音色语料以微调finetune的方式训练所述基础模型,得到微调模型;
根据变量语料和所述微调模型生成目标音色的变量语音;
根据所述变量语音和固定语音合成目标音色语音。
根据本发明一种优选的实施方式,所述通过开源语料训练基础模型之前,所述方法还包括:
获取第一性别的开源语料;
所述通过目标音色语料以微调finetune的方式训练所述基础模型之前,所述方法还包括:
获取第一性别的目标音色语料。
根据本发明一种优选的实施方式,所述根据变量语料和所述微调模型生成目标音色的变量语音包括:
将变量语料输入所述微调模型中得到声音频谱的声学特征;
通过预设声码器基于所述声学特征生成变量音频,得到所述目标音色的变量语音。
根据本发明一种优选的实施方式,所述通过预设声码器基于所述声学特征生成变量音频之前,所述方法还包括:
通过所述目标音色语料训练所述预设声码器。
根据本发明一种优选的实施方式,所述TTS网络为 Transformer TTS网络。
根据本发明一种优选的实施方式,所述预设声码器为WaveGAN声码器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京淇瑀信息科技有限公司,未经北京淇瑀信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011211468.7/2.html,转载请声明来源钻瓜专利网。