[发明专利]一种语音合成方法、装置、可读存储介质及计算设备有效
申请号: | 201910670564.9 | 申请日: | 2019-07-24 |
公开(公告)号: | CN110232907B | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 陈云琳 | 申请(专利权)人: | 出门问问(苏州)信息科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/08;G10L19/012;G10L19/16;G10L25/30 |
代理公司: | 北京鼎承知识产权代理有限公司 11551 | 代理人: | 田恩涛;柯宏达 |
地址: | 215123 江苏省苏州市工业*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 方法 装置 可读 存储 介质 计算 设备 | ||
本公开实施例提供了一种语音合成方法、装置、可读存储介质及计算设备,实现使用通用中文语音即可进行语音合成。方法包括:获取用于语音合成的语音序列和文本序列;将语音序列和文本序列输入预先训练的神经网络,得到第一谱参数;根据第一谱参数合成语音。
技术领域
本公开涉及语音处理技术领域,尤其涉及一种语音合成方法、装置、可读存储介质及计算设备。
背景技术
现有的中文语音合成系统,为了训练一个高质量的语音合成模型,需要使用专业录音棚内录制的高质量语音。主要有以下几种方案:
录制单个说话人的10-20小时的高质量数据,进行人工标注,包括标注拼音、韵律、切音,然后训练模型,得到一个完善的文本到语音(Text To Speech,TTS)系统;
录制10-20个多说话人的10-20小时高质量数据,进行人工标注,包括标注拼音、韵律、切音,然后训练多说话人模型,得到一个完善的TTS系统
这两种方案,都依靠完善的录音设备以及高标准的录音环境,并且依赖精细的人工标注,某一环节出现问题,都会导致模型效果很差。如录音设备以及环境有问题,会导致生成的语音噪声很大;标注出现问题,导致模型训练不收敛,达不到验收标准。除此之外,录制高质量的语音,需要很长的时间以及大量的财力,所以使用这两种方案构造一个高质量的的TTS模型,都有一定的不足。
发明内容
为此,本公开提供了一种语音合成方法、装置、可读存储介质及计算设备,以力图解决或者至少缓解上面存在的至少一个问题。
根据本公开实施例的一个方面,提供了一种语音合成方法,包括:
获取用于语音合成的语音序列和文本序列;
将语音序列和文本序列输入预先训练的神经网络,得到第一谱参数;
根据第一谱参数合成语音。
可选地,将语音序列和文本序列输入预先训练的神经网络,得到第一谱参数,包括:
根据预先训练的神经网络,将语音序列输入说话人编码器,得到第一说话人嵌入向量,将语音序列输入残差编码器,得到第一残差嵌入向量,将文本序列输入文本编码器,得到第一文本嵌入向量,以及,将第一说话人嵌入向量、第一残差嵌入向量和第一文本嵌入向量输入解码器,得到第一谱参数。
可选地,根据第一谱参数合成语音,包括:
根据第一谱参数,采用预先训练的神经网络声码器Neural Vocoder模型合成语音。
可选地,训练神经网络,包括:
获取一一对应的训练语音序列和训练文本序列;
将训练语音序列输入说话人编码器,得到第二说话人嵌入向量;
将训练语音序列输入残差编码器,得到第二残差嵌入向量;
将训练文本序列输入文本编码器,得到第二文本嵌入向量;
将第二说话人嵌入向量、第二残差嵌入向量和第二文本嵌入向量输入解码器,得到第二谱参数。
可选地,训练神经网络,还包括:
将第二说话人嵌入向量输入说话人识别分类器进行分类。
可选地,训练神经网络,还包括:
将第二说话人嵌入向量作梯度反转处理,得到说话人信息。
可选地,训练神经网络,还包括:
将第二说话人嵌入向量输入语音背景分类器进行分类。
可选地,训练神经网络,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于出门问问(苏州)信息科技有限公司,未经出门问问(苏州)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910670564.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:低成本声学轮胎腔共振消除的方法和设备
- 下一篇:一种分布式语音合成系统