[发明专利]一种面向特定领域的语音合成方法在审
申请号: | 202210910550.1 | 申请日: | 2022-07-29 |
公开(公告)号: | CN115565517A | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 苟川平;唐显鑫;余波 | 申请(专利权)人: | 成都立科达网络科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08 |
代理公司: | 成都鱼爪智云知识产权代理有限公司 51308 | 代理人: | 谷科均 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 特定 领域 语音 合成 方法 | ||
1.一种面向特定领域的语音合成方法,其特征在于,包括:
获取待处理文本进行语种识别,并根据识别的结果对待处理文本进行分割,得到普通文本和特殊词文本;
将普通文本转换成向量输入预置的多语种语音合成模型中进行频谱合成,得到第一频谱;
将特殊词文本转换成向量输入预置的特殊发音库中进行匹配识别,得到第二频谱;
按照待处理文本输入的顺序将第一频谱和第二频谱进行拼接,得到合成频谱;
通过声码器对合成频谱进行解码,得到合成语音。
2.如权利要求1所述的一种面向特定领域的语音合成方法,其特征在于,还包括:
录入领域相关的语种类型,并根据语种对应的字词构建领域音素词典;
从开源的语种数据集中筛选出该领域相关的语料数据,形成训练语料库;
根据所述训练语料库并基于所述领域音素词典,对深度神经网络进行训练,得到所述多语种语音合成模型。
3.如权利要求1所述的一种面向特定领域的语音合成方法,其特征在于,还包括:
录入领域相关的语种类型,并根据语种对应的字词构建该语种对应的音素词典;
从开源的语种数据集中筛选出该领域相关的语料数据,形成各个语种对应的训练语料库;
分别基于该语种对应的音素词典和训练语料库,对深度神经网络进行训练,得到各个语种对应的语音合成模型;
对各个语种对应的语音合成模型进行参数层面的融合,得到所述多语种语音合成模型。
4.如权利要求3所述的一种面向特定领域的语音合成方法,其特征在于,所述对各个语种对应的语音合成模型进行参数层面的融合,得到所述多语种语音合成模型的步骤具体包括:
按照公式将各个语种的共同音素进行加权融合,得到所述多语种语音合成模型对应的embedding参数,其中,ei代表音素i的embedding参数,为音素i在语种l中的embedding参数,为音素i在语种l中的权重;
按照公式θ=∑l∈Lωlθl将各个语种对应的语音合成模型对应的参数θl进行融合,得到所述多语种语音合成模型对应的参数θ,其中,l代表语种类型,L为语种类型的集合,θl为语种l训练得到的参数,ωl为语种l对应的语种权重。
5.如权利要求2或3所述的一种面向特定领域的语音合成方法,其特征在于,还包括根据领域特定音频数据对所述多语种语音合成模型进行修正。
6.如权利要求1所述的一种面向特定领域的语音合成方法,其特征在于,所述按照待处理文本输入的顺序将第一频谱和第二频谱进行拼接,得到合成频谱的步骤包括:
以第一频谱所对应的训练说话人的音色作为目标音色,并根据目标音色对第二频谱进行自适应变换;
基于第一频谱和自适应变换后的第二频谱进行语音合成,得到合成频谱。
7.如权利要求1所述的一种面向特定领域的语音合成方法,其特征在于,还包括对合成频谱进行平滑处理。
8.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-7中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都立科达网络科技有限公司,未经成都立科达网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210910550.1/1.html,转载请声明来源钻瓜专利网。