[发明专利]语音合成方法及装置在审
申请号: | 202111283085.5 | 申请日: | 2021-11-01 |
公开(公告)号: | CN116072094A | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 杨明祺;张杰;马楠 | 申请(专利权)人: | 北京猿力未来科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 李东海 |
地址: | 100102 北京市朝阳区广顺南大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 | ||
本说明书提供语音合成方法及装置,其中所述语音合成方法包括:获取包含主音素和副音素的拼音信息;将所述主音素和所述副音素输入至语音合成模型,并通过所述语音合成模型中的编码器进行处理,获得主音素编码向量和副音素编码向量;对所述主音素编码向量和所述副音素编码向量进行拼接,根据拼接结果生成基准音素编码向量和辅助音素编码向量;通过所述语音合成模型中的解码器对所述基准音素编码向量和所述辅助音素编码向量进行处理,并根据解码处理结果生成所述拼音信息对应的音频片段。
技术领域
本说明书涉及语音处理技术领域,特别涉及语音合成方法及装置。
背景技术
随着互联网技术的发展,语音合成技术在越来越多的场景得以应用;儿化音作为现代汉语中常用的发音,是因为字的末位韵母卷舌动作而发生的音变现象。现有技术中,一般会采用两阶段的方式实现语音合成,首先将汉语拼音按照声母韵母进行拆分,之后输入到声学模型构建频谱图,之后再将频谱图输入至声码器进行处理以得到声音信号;虽然能够实现对大部分语句进行语音合成,但是涉及到儿化音的语句大多数会忽略儿化音的发音,很大程度上会影响合成后的声音信号的播放效果,因此亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本说明书实施例提供了一种语音合成方法。本说明书同时涉及一种语音合成装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种语音合成方法,包括:
获取包含主音素和副音素的拼音信息;
将所述主音素和所述副音素输入至语音合成模型,并通过所述语音合成模型中的编码器进行处理,获得主音素编码向量和副音素编码向量;
对所述主音素编码向量和所述副音素编码向量进行拼接,根据拼接结果生成基准音素编码向量和辅助音素编码向量;
通过所述语音合成模型中的解码器对所述基准音素编码向量和所述辅助音素编码向量进行处理,并根据解码处理结果生成所述拼音信息对应的音频片段。
可选地,所述获取包含主音素和副音素的拼音信息,包括:
获取包含儿化音的待处理文本;
确定所述待处理文本中与所述儿化音具有关联关系的字符对应的拼音信息;
对所述拼音信息进行拆分,获得与所述字符相对应的声母音素、韵母音素以及儿化音音素;
将所述声母音素和所述韵母音素作为所述主音素,所述儿化音音素作为所述副音素。
可选地,所述将所述主音素和所述副音素输入至语音合成模型步骤执行之前,还包括:
基于预设的映射关系构建所述声母音素对应的声母特征,所述韵母音素对应的韵母特征以及所述儿化音音素对应的儿化音特征;
相应的,所述将所述主音素和所述副音素输入至语音合成模型,包括:
将所述声母特征、所述韵母特征以及所述儿化音特征输入至所述语音合成模型。
可选地,所述通过所述语音合成模型中的编码器进行处理,获得主音素编码向量和副音素编码向量,包括:
通过所述语音合成模型中的所述编码器分别对所述声母特征、所述韵母特征以及所述儿化音特征进行编码处理;
根据处理结果得到所述声母特征对应的声母编码向量,所述韵母特征对应的韵母编码向量以及所述儿化音特征对应的儿化音编码向量;
将所述声母编码向量和所述韵母编码向量作为所述主音素编码向量,所述儿化音编码向量作为所述副音素编码向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京猿力未来科技有限公司,未经北京猿力未来科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111283085.5/2.html,转载请声明来源钻瓜专利网。