[发明专利]语音合成方法、装置、设备及存储介质在审
申请号: | 202110621375.X | 申请日: | 2021-06-03 |
公开(公告)号: | CN113327576A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 徐波 | 申请(专利权)人: | 多益网络有限公司;广州多益网络股份有限公司;广东利为网络科技有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L25/30;G10L25/18 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 麦小婵;郝传鑫 |
地址: | 510000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 设备 存储 介质 | ||
1.一种语音合成方法,其特征在于,包括:
将待处理的文本数据的每个字转成相应的音素;
根据预先构建的音素与数值映射字典,将所述文本数据的每个音素转成相应的音素数值;
根据所述音素数值,通过预先训练的声学模型,获得所述文本数据对应的梅尔频谱;其中,所述声学模型根据音素向量与音素数值映射基于神经网络模型训练得到;
将所述梅尔频谱输入到声码器中以将所述梅尔频谱转换成音频。
2.如权利要求1所述的语音合成方法,其特征在于,所述方法还包括以下所述声学模型训练步骤:
将预先采集的文本样本的每个字转成相应的音素;
根据所述音素与数值映射字典,将所述文本样本的每个音素转换成音素数值;
获取所述文本样本的每个音素的音频特征;
根据所述文本样本的每个音素的音频特征,得到所述文本样本的音素向量;
以所述文本样本的音素向量和音素数值为训练集,对神经网络模型进行训练,得到所述声学模型。
3.如权利要求1所述的语音合成方法,其特征在于,所述将待处理的文本数据的每个字转成相应的音素,包括:
将所述文本数据的每个字转成拼音;
根据预先构建的拼音与音素字典文件,将每个拼音映射成音素。
4.如权利要求2所述的语音合成方法,其特征在于,所述获取所述文本样本的每个音素的音频特征,包括:
对预存的音频数据进行归一化处理;
获取所述音频数据对应的文本样本中每个字对应的拼音;
根据归一化后的音频数据、所述文本样本对应的拼音及预先构建的拼音与音素字典文件,通过预先预先训练好的对齐模型,获得音频与音素的对齐结果;
根据所述对齐结果,读取所述文本样本中每个音素的音频范围;
根据每个音素的音频范围切分出每个音素在所述文本样本中音频特征。
5.如权利要求4所述的语音合成方法,其特征在于,所述根据所述对齐结果,读取所述文本样本中每个音素的音频范围,包括:
读取所述对齐结果对应的TextGrid文件,并根据所述TextGrid文件,获取所述文本样本中每个音素的起始时间和终止时间;
将任一音素的起始时间至终止时间对应范围,作为任一音素对应的音频范围。
6.如权利要求2所述的语音合成方法,其特征在于,所述根据所述文本样本的每个音素的音频特征,得到所述文本样本的音素向量,包括:
获取属于第i种音素的所有音频特征,并计算第i种音素的所有音频特征中的最大音频长度;
根据所述最大音频长度,对第i种音素的所有音频特征进行插值处理;其中,插值后的音频特征的长度等于所述最大音频长度;
根据每个音素插值后的音频特征,得到音素向量。
7.如权利要求6所述的语音合成方法,其特征在于,所述根据每个音素插值后的音频特征,得到音素向量,包括:
将每个音素插值后的音频特征转换为梅尔频谱;
计算每个音素对应的梅尔频谱的帧数量,作为对应音素的时长值;
根据属于第i种音素的所有时长值,计算第i种音素的时长平均值;
根据各种音素的时长平均值构建一维矩阵,作为音素向量。
8.一种语音合成装置,其特征在于,包括:
音素转换模块,用于将待处理的文本数据的每个字转成相应的音素;
数值转换模块,用于根据预先构建的音素与数值映射字典,将所述文本数据的每个音素转成相应的音素数值;
频谱获取模块,用于根据所述音素数值,通过预先训练的声学模型,获得所述文本数据对应的梅尔频谱;其中,所述声学模型根据音素向量与音素数值映射基于神经网络模型训练得到;
音频转换模块,用于将所述梅尔频谱输入到声码器中以将所述梅尔频谱转换成音频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于多益网络有限公司;广州多益网络股份有限公司;广东利为网络科技有限公司,未经多益网络有限公司;广州多益网络股份有限公司;广东利为网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110621375.X/1.html,转载请声明来源钻瓜专利网。