[发明专利]语音合成方法及系统在审
申请号: | 202111512624.8 | 申请日: | 2021-12-08 |
公开(公告)号: | CN114255735A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 朱海 | 申请(专利权)人: | 四川启睿克科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L25/24;G10L25/18;G10L25/30 |
代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 赵以鹏 |
地址: | 610000 四川省成都市中国(四川)*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 系统 | ||
本发明提供了一种语音合成方法,包括:获取目标说话人的目标频谱特征;基于识别模型对所述目标频谱特征的处理,获得所述目标说话人的语音识别向量;基于预测模型对所述目标频谱特征的处理,分别获得音素级、音节级、句子级目标声学预测向量;基于编码模型对待合成文本的处理,获得文本编码向量;基于解码模型对所述音素级、音节级、句子级目标声学预测向量及所述文本编码向量的处理,得到预测频谱特征;基于声码模型对所述预测频谱特征的处理,获得合成音频。可以在少样本个性化语音合成的任务中提升了音质以及自然度。
技术领域
本发明涉及语音合成技术领域,具体涉及一种语音合成方法及系统。
背景技术
语音合成是一种将文本信息转换为语音信息的技术,即将文字信息转换为任意的可听的语音。涉及到声学、语言学、计算机科学等多门学科。然而,少样本的个 性化语音合成即使热点又是难点。在少样本的个性化语音合成中,由于样本数量的 限制在现有的声学模型上往往表现出较低的音质和相似度。
发明内容
本发明的目的在于提供一种语音合成方法及系统。以期解决背景技术中存在的技术问题。
为了实现上述目的,本发明采用以下技术方案:
一种语音合成方法,包括:
获取目标说话人的目标频谱特征;
基于识别模型对所述目标频谱特征的处理,获得所述目标说话人的语音识别向量;
基于预测模型对所述目标频谱特征的处理,分别获得音素级、音节级、句子级 目标声学预测向量;
基于编码模型对待合成文本的处理,获得文本编码向量;
基于解码模型对所述音素级、音节级、句子级目标声学预测向量及所述文本编 码向量的处理,得到预测频谱特征;
基于声码模型对所述预测频谱特征的处理,获得合成音频。
在一些实施例中,所述识别模型为机器学习模型,所述识别模型的训练样本包 括多个不同说话人的音频及对应的文本。
在一些实施例中,所述目标频谱特征包括以下至少一种:线性频谱特征、梅尔 频谱特征。
在一些实施例中,待合成文本为经预处理的合成文本,所述预处理包括筛选出 非法音节、进行分词、词性标注。
在一些实施例中,所述预处理还包括:
对所述合成文本进行综合语言学特征提取,并将提取的所述综合语言学特征输入到韵律预测模型,获得停顿级别标注;
将所述合成文本的中文汉字转换为对应的拼音音素。
在一些实施例中,对所述目标频谱特征的处理还包括:通过强制对齐算法获得 频谱特征与待合成文本之间的对齐结果;
根据所述对齐结果分别对目标频谱特征在音素级、音节级上对每一帧进行平均;
所述编码模型包括音素级编码模型、音节级编码模型、句子级编码模型;
所述音节级编码模型的输出维度根据音素步长进行扩展且与音素步长保持一致。
在一些实施例中,所述音素级、音节级、句子级目标声学预测向量及所述文本 编码向量输入到解码模型之前先进行以下处理:
通过将所述语音识别向量、文本编码向量以及音素级、音节级、句子级目标声 学预测向量进行相加,结合频谱特征与待合成文本之间的对齐结果对相加后的向量 进行扩帧。
在一些实施例中,所述解码模型包括但不限于CNN、Transformer。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川启睿克科技有限公司,未经四川启睿克科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111512624.8/2.html,转载请声明来源钻瓜专利网。