[发明专利]语音合成方法及装置在审
申请号: | 202111283085.5 | 申请日: | 2021-11-01 |
公开(公告)号: | CN116072094A | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 杨明祺;张杰;马楠 | 申请(专利权)人: | 北京猿力未来科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 李东海 |
地址: | 100102 北京市朝阳区广顺南大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 | ||
1.一种语音合成方法,其特征在于,包括:
获取包含主音素和副音素的拼音信息;
将所述主音素和所述副音素输入至语音合成模型,并通过所述语音合成模型中的编码器进行处理,获得主音素编码向量和副音素编码向量;
对所述主音素编码向量和所述副音素编码向量进行拼接,根据拼接结果生成基准音素编码向量和辅助音素编码向量;
通过所述语音合成模型中的解码器对所述基准音素编码向量和所述辅助音素编码向量进行处理,并根据解码处理结果生成所述拼音信息对应的音频片段。
2.根据权利要求1所述的语音合成方法,其特征在于,所述获取包含主音素和副音素的拼音信息,包括:
获取包含儿化音的待处理文本;
确定所述待处理文本中与所述儿化音具有关联关系的字符对应的拼音信息;
对所述拼音信息进行拆分,获得与所述字符相对应的声母音素、韵母音素以及儿化音音素;
将所述声母音素和所述韵母音素作为所述主音素,所述儿化音音素作为所述副音素。
3.根据权利要求2所述的语音合成方法,其特征在于,所述将所述主音素和所述副音素输入至语音合成模型步骤执行之前,还包括:
基于预设的映射关系构建所述声母音素对应的声母特征,所述韵母音素对应的韵母特征以及所述儿化音音素对应的儿化音特征;
相应的,所述将所述主音素和所述副音素输入至语音合成模型,包括:
将所述声母特征、所述韵母特征以及所述儿化音特征输入至所述语音合成模型。
4.根据权利要求3所述的语音合成方法,其特征在于,所述通过所述语音合成模型中的编码器进行处理,获得主音素编码向量和副音素编码向量,包括:
通过所述语音合成模型中的所述编码器分别对所述声母特征、所述韵母特征以及所述儿化音特征进行编码处理;
根据处理结果得到所述声母特征对应的声母编码向量,所述韵母特征对应的韵母编码向量以及所述儿化音特征对应的儿化音编码向量;
将所述声母编码向量和所述韵母编码向量作为所述主音素编码向量,所述儿化音编码向量作为所述副音素编码向量。
5.根据权利要求4所述的语音合成方法,其特征在于,所述对所述主音素编码向量和所述副音素编码向量进行拼接,根据拼接结果生成基准音素编码向量和辅助音素编码向量,包括:
对所述韵母编码向量和所述儿化音编码向量进行拼接,根据拼接结果生成所述辅助音编码向量;
将所述声母编码向量作为所述基准编码向量。
6.根据权利要求5所述的语音合成方法,其特征在于,所述通过所述语音合成模型中的解码器对所述基准音素编码向量和所述辅助音素编码向量进行处理,并根据解码处理结果生成所述拼音信息对应的音频片段,包括:
通过所述语音合成模型中的所述解码器对所述基准音素编码向量和所述辅助音素编码向量进行解码处理,获得所述拼音信息对应的频谱图;
基于所述频谱图生成所述拼音信息对应的音频片段。
7.根据权利要求6所述的语音合成方法,其特征在于,所述基于所述频谱图生成所述拼音信息对应的音频片段,包括:
将所述频谱图输入至声码器进行处理,获得所述音频片段。
8.根据权利要求2-7任意一项所述的语音合成方法,其特征在于,所述获取包含儿化音的待处理文本步骤执行之后,还包括:
确定所述待处理文本中基准字符对应的基准拼音信息;
基于所述基准拼音信息创建所述基准字符对应的基准音频片段;
将所述基准音频片段和所述音频片段进行拼接,根据拼接结果生成所述待处理文本对应的目标音频片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京猿力未来科技有限公司,未经北京猿力未来科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111283085.5/1.html,转载请声明来源钻瓜专利网。