[发明专利]语音合成方法及系统在审
申请号: | 202111512624.8 | 申请日: | 2021-12-08 |
公开(公告)号: | CN114255735A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 朱海 | 申请(专利权)人: | 四川启睿克科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L25/24;G10L25/18;G10L25/30 |
代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 赵以鹏 |
地址: | 610000 四川省成都市中国(四川)*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 系统 | ||
1.一种语音合成方法,其特征在于,包括:
获取目标说话人的目标频谱特征;
基于识别模型对所述目标频谱特征的处理,获得所述目标说话人的语音识别向量;
基于预测模型对所述目标频谱特征的处理,分别获得音素级、音节级、句子级目标声学预测向量;
基于编码模型对待合成文本的处理,获得文本编码向量;
基于解码模型对所述音素级、音节级、句子级目标声学预测向量及所述文本编码向量的处理,得到预测频谱特征;
基于声码模型对所述预测频谱特征的处理,获得合成音频。
2.根据权利要求1所述的方法,其特征在于,所述识别模型为机器学习模型,所述识别模型的训练样本包括多个不同说话人的音频及对应的文本。
3.根据权利要求1所述的方法,其特征在于,所述目标频谱特征包括以下至少一种:线性频谱特征、梅尔频谱特征。
4.根据权利要求1所述的方法,其特征在于,待合成文本为经预处理的合成文本,所述预处理包括筛选出非法音节、进行分词、词性标注。
5.根据权利要求4所述的方法,其特征在于,所述预处理还包括:
对所述合成文本进行综合语言学特征提取,并将提取的所述综合语言学特征输入到韵律预测模型,获得停顿级别标注;
将所述合成文本的中文汉字转换为对应的拼音音素。
6.根据权利要求1所述的方法,其特征在于,对所述目标频谱特征的处理还包括:通过强制对齐算法获得频谱特征与待合成文本之间的对齐结果;
根据所述对齐结果分别对目标频谱特征在音素级、音节级上对每一帧进行平均;
所述编码模型包括音素级编码模型、音节级编码模型、句子级编码模型;
所述音节级编码模型的输出维度根据音素步长进行扩展且与音素步长保持一致。
7.根据权利要求6所述的方法,其特征在于,所述音素级、音节级、句子级目标声学预测向量及所述文本编码向量输入到解码模型之前先进行以下处理:
通过将所述语音识别向量、文本编码向量以及音素级、音节级、句子级目标声学预测向量进行相加,结合频谱特征与待合成文本之间的对齐结果对相加后的向量进行扩帧。
8.根据权利要求1-7中任一所述的方法,其特征在于,所述解码模型包括但不限于CNN、Transformer。
9.根据权利要求1-7中任一所述的方法,其特征在于,所述声码模型包括但不限于WaveNET、WavRNN、MelGAN。
10.一种语音合成系统,其特征在于,包括:
获取模块,用于获取目标说话人的目标频谱特征;
识别模块,用于基于识别模型对所述目标频谱特征的处理,获得所述目标说话人的语音识别向量;
预测模块,用于基于预测模型对所述目标频谱特征的处理,分别获得音素级、音节级、句子级目标声学预测向量;
编码模块,用于基于编码模型对待合成文本的处理,获得文本编码向量;
解码模块,用于基于解码模型对所述音素级、音节级、句子级目标声学预测向量及所述文本编码向量的处理,得到预测频谱特征;
声码模块,用于基于声码模型对所述预测频谱特征的处理,获得合成音频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川启睿克科技有限公司,未经四川启睿克科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111512624.8/1.html,转载请声明来源钻瓜专利网。