[发明专利]语音合成方法、装置、设备以及存储介质在审

申请号：	202110605207.1	申请日：	2021-05-31
公开（公告）号：	CN113345412A	公开（公告）日：	2021-09-03
发明（设计）人：	张旭龙;王健宗	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L13/033	分类号：	G10L13/033;G10L13/08
代理公司：	深圳国新南方知识产权代理有限公司 44374	代理人：	周雷
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成方法装置设备以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种语音合成方法，包括：将目标文本序列转换为目标unicode编码；将所述目标unicode编码输入预设的语音特征分析模型进行分析，得到所述目标unicode编码对应的语音特征信息；将参考语音输入预设的语音编码器进行分析，得到所述参考语音对应的语音编码信息；将语音合成信息输入至预设的语音声码器进行分析，得到所述目标文本序列对应的合成语音；其中，所述语音合成信息包括所述语音特征信息和所述语音编码信息。可见，本发明能够使合成的语音即使是在不同语言之间进行切换时仍像是同一说话人发出的，提升合成的语音在不同语言之间进行切换时的效果。本发明还涉及区块链技术领域。

技术领域

本发明涉及语音合成技术领域，尤其涉及一种语音合成方法、装置、计算机设备以及存储介质。

背景技术

近年，多语言语音合成技术正逐渐成为语音合成领域中热门的研究课题。多语言语音合成技术能够用同一个系统生成不同说话人、不同语言的合成语音，其可以广泛应用于人机交互、双语教学、口语对话等场景中，对促进多语言地区的语言交流有着重要的意义。

实际应用中，多语言语音合成技术的实现的一个难点在于用于进行人工神经网络的训练的数据的收集，要寻找一个能同时精通多种语言的人进行语音数据的收集显然是不现实的，所以实际收集到的数据通常会包括不同的说话人以及不同语言的语音，例如，a精通中文和英文，则收集a的中文语音和英文语音，b精通日文，则收集b的日文语音。这样，人工神经网络在训练时拟合的将会是不同的说话人以及不同语言的语音，导致多语言语音合成技术最终合成的语音在不同语言之间进行切换时的效果并不理想，具体表现为同一个文本序列转换成的不同语言的语音像是不同的说话人发出的。

发明内容

本发明所要解决的技术问题在于，多语言语音合成技术最终合成的语音在不同语言之间进行切换时的效果不佳，像是不同的说话人发出的。

为了解决上述技术问题，本发明第一方面公开了一种语音合成方法，所述方法包括：

将目标文本序列转换为目标unicode编码；

将所述目标unicode编码输入预设的语音特征分析模型进行分析，得到所述目标unicode编码对应的语音特征信息；

将参考语音输入预设的语音编码器进行分析，得到所述参考语音对应的语音编码信息；

将语音合成信息输入至预设的语音声码器进行分析，得到所述目标文本序列对应的合成语音；

其中，所述语音合成信息包括所述语音特征信息和所述语音编码信息。

本发明第二方面公开了一种语音合成装置，所述装置包括：

转换模块，用于将目标文本序列转换为目标unicode编码；

语音特征分析模块，用于将所述目标unicode编码输入预设的语音特征分析模型进行分析，得到所述目标unicode编码对应的语音特征信息；

语音编码分析模块，用于将参考语音输入预设的语音编码器进行分析，得到所述参考语音对应的语音编码信息；