[发明专利]一种面向特定领域的语音合成方法在审
申请号: | 202210910550.1 | 申请日: | 2022-07-29 |
公开(公告)号: | CN115565517A | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 苟川平;唐显鑫;余波 | 申请(专利权)人: | 成都立科达网络科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08 |
代理公司: | 成都鱼爪智云知识产权代理有限公司 51308 | 代理人: | 谷科均 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 特定 领域 语音 合成 方法 | ||
本发明提出了一种面向特定领域的语音合成方法,涉及语音合成技术领域。本方法通过构建多语种语音合成模型和特殊发音库,先将普通的多语种文本和领域的特殊发音词文本分别进行合成,得到对应的第一频谱和第二频谱,然后以第一频谱为参考,将第二频谱进行音色转换后,将两者进行拼接合成,保证两种音色的一致性,并通过声码器对合成频谱进行解码,得到最终的合成语音,提高了在特定领域中包含多语种及特殊发音时的语音合成效果。
技术领域
本发明涉及语音合成技术领域,具体而言,涉及一种面向特定领域的语音合成方法。
背景技术
语音合成(text to speech)发展了很多年,也在很多领域有广泛的应用。一般来说语音合成包括声学模型和声码器两部分,声学模型建立发音音素到语音频谱的转换关系,声码器负责将频谱特征转换成人耳能听到的语音。当前语音合成通行的方案是端到端的深度神经网络模型,这非常依赖于标注数据量,通常需要几百甚至几千个小时的语音数据才能获得比较好的合成效果。
在一般领域,语音合成技术已趋于成熟,主流语言也都有许多的开源数据集可供利用。但在某些特定领域中,存在多种语言混用的情形,例如中文、英文、日文混读,或者标准语与方言的混读等等,因此需要对多语种语音进行合成。虽然现有的多语种语音合成系统往往具备不同文本语种识别能力,但是在进行语音合成的阶段,系统只能选择一种语种的合成规则来合成语音,使得文本中不同语种部分对应合成的语音出现失真、不自然乃至表现为噪声的情况。另外,有些专有的发音缺少相应的数据,导致在进行多语种语音合成时难以快速地进行领域拓展。
发明内容
本发明的目的在于提供一种面向特定领域的语音合成方法,其能够解决在特定领域可能存在的跨语种以及包含特殊发音的语音合成问题,提高语音的合成效果。
本发明的实施例是这样实现的:
第一方面,本申请实施例提供一种面向特定领域的语音合成方法,其包括:
获取待处理文本进行语种识别,并根据识别的结果对待处理文本进行分割,得到普通文本和特殊词文本;
将普通文本转换成向量输入预置的多语种语音合成模型中进行频谱合成,得到第一频谱;
将特殊词文本转换成向量输入预置的特殊发音库中进行匹配识别,得到第二频谱;
按照待处理文本输入的顺序将第一频谱和第二频谱进行拼接,得到合成频谱;
通过声码器对合成频谱进行解码,得到合成语音。
基于第一方面,在本发明的一些实施例中,上述方法还包括:
录入领域相关的语种类型,并根据语种对应的字词构建领域音素词典;
从开源的语种数据集中筛选出该领域相关的语料数据,形成训练语料库;
根据上述训练语料库并基于上述领域音素词典,对深度神经网络进行训练,得到上述多语种语音合成模型。
基于第一方面,在本发明的一些实施例中,上述方法还包括:
录入领域相关的语种类型,并根据语种对应的字词构建该语种对应的音素词典;
从开源的语种数据集中筛选出该领域相关的语料数据,形成各个语种对应的训练语料库;
分别基于该语种对应的音素词典和训练语料库,对深度神经网络进行训练,得到各个语种对应的语音合成模型;
对各个语种对应的语音合成模型进行参数层面的融合,得到上述多语种语音合成模型。
基于第一方面,在本发明的一些实施例中,上述对各个语种对应的语音合成模型进行参数层面的融合,得到上述多语种语音合成模型的步骤具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都立科达网络科技有限公司,未经成都立科达网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210910550.1/2.html,转载请声明来源钻瓜专利网。