[发明专利]语音合成方法、装置、设备以及存储介质在审
申请号: | 202110605207.1 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113345412A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 张旭龙;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L13/033 | 分类号: | G10L13/033;G10L13/08 |
代理公司: | 深圳国新南方知识产权代理有限公司 44374 | 代理人: | 周雷 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 设备 以及 存储 介质 | ||
本发明公开了一种语音合成方法,包括:将目标文本序列转换为目标unicode编码;将所述目标unicode编码输入预设的语音特征分析模型进行分析,得到所述目标unicode编码对应的语音特征信息;将参考语音输入预设的语音编码器进行分析,得到所述参考语音对应的语音编码信息;将语音合成信息输入至预设的语音声码器进行分析,得到所述目标文本序列对应的合成语音;其中,所述语音合成信息包括所述语音特征信息和所述语音编码信息。可见,本发明能够使合成的语音即使是在不同语言之间进行切换时仍像是同一说话人发出的,提升合成的语音在不同语言之间进行切换时的效果。本发明还涉及区块链技术领域。
技术领域
本发明涉及语音合成技术领域,尤其涉及一种语音合成方法、装置、计算机设备以及存储介质。
背景技术
近年,多语言语音合成技术正逐渐成为语音合成领域中热门的研究课题。多语言语音合成技术能够用同一个系统生成不同说话人、不同语言的合成语音,其可以广泛应用于人机交互、双语教学、口语对话等场景中,对促进多语言地区的语言交流有着重要的意义。
实际应用中,多语言语音合成技术的实现的一个难点在于用于进行人工神经网络的训练的数据的收集,要寻找一个能同时精通多种语言的人进行语音数据的收集显然是不现实的,所以实际收集到的数据通常会包括不同的说话人以及不同语言的语音,例如,a精通中文和英文,则收集a的中文语音和英文语音,b精通日文,则收集b的日文语音。这样,人工神经网络在训练时拟合的将会是不同的说话人以及不同语言的语音,导致多语言语音合成技术最终合成的语音在不同语言之间进行切换时的效果并不理想,具体表现为同一个文本序列转换成的不同语言的语音像是不同的说话人发出的。
发明内容
本发明所要解决的技术问题在于,多语言语音合成技术最终合成的语音在不同语言之间进行切换时的效果不佳,像是不同的说话人发出的。
为了解决上述技术问题,本发明第一方面公开了一种语音合成方法,所述方法包括:
将目标文本序列转换为目标unicode编码;
将所述目标unicode编码输入预设的语音特征分析模型进行分析,得到所述目标unicode编码对应的语音特征信息;
将参考语音输入预设的语音编码器进行分析,得到所述参考语音对应的语音编码信息;
将语音合成信息输入至预设的语音声码器进行分析,得到所述目标文本序列对应的合成语音;
其中,所述语音合成信息包括所述语音特征信息和所述语音编码信息。
本发明第二方面公开了一种语音合成装置,所述装置包括:
转换模块,用于将目标文本序列转换为目标unicode编码;
语音特征分析模块,用于将所述目标unicode编码输入预设的语音特征分析模型进行分析,得到所述目标unicode编码对应的语音特征信息;
语音编码分析模块,用于将参考语音输入预设的语音编码器进行分析,得到所述参考语音对应的语音编码信息;
语音合成模块,用于将语音合成信息输入至预设的语音声码器进行分析,得到所述目标文本序列对应的合成语音;
其中,所述语音合成信息包括所述语音特征信息和所述语音编码信息。
本发明第三方面公开了一种计算机设备,所述计算机设备包括:
存储有可执行程序代码的存储器;
与所述存储器连接的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的语音合成方法中的部分或全部步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110605207.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:加油作业调度方法和系统
- 下一篇:模拟摄像机连接检测方法和装置