[发明专利]语音合成方法、电子装置及存储介质在审

申请号：	201910915659.2	申请日：	2019-09-25
公开（公告）号：	CN110534088A	公开（公告）日：	2019-12-03
发明（设计）人：	李晋;叶子云;周成成	申请（专利权）人：	招商局金融科技有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10L13/02
代理公司：	44347 深圳市沃德知识产权代理事务所(普通合伙)	代理人：	高杰;于志光<国际申请>=<国际公布>=
地址：	518000 广东省深圳市福田区华富街***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音音色特征应答场景固定语音固定文本语音合成预设合成文本计算机存储介质筛选电子装置语义技术语音库连贯拼接音色录制统一
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及语音语义技术领域，提供了一种语音合成方法、电子装置及计算机存储介质，该方法包括：获取应答场景中的预设话术，所述话术包括固定文本和变量文本；根据所述应答场景从预设语音库中筛选出与所述应答场景相应的音色特征对所述话术中的固定文本进行录制，得到固定语音；再根据筛选出的所述音色特征对所述话术中的变量文本进行语音合成，得到与所述固定语音具有相同音色特征的变量语音；最后，拼接所述固定语音和所述变量语音，生成具有所述音色特征的合成语音。本发明根据应答场景合成具有音色统一的语音，使人机交互中语音自然连贯，进而提升用户的体验度。

技术领域

本发明涉及语音语义技术领域，尤其涉及一种语音合成方法、电子装置及计算机可读存储介质。

背景技术

随着人工智能技术的发展，人机交互中的语音播报要求具备连贯性和自然度，而语音播报是根据录制的话术文本进行复读。

然而，现有机器在录制话术时未考虑实际的业务场景，采用一个声调录制不同业务场景的各种话术，使得有的话术录制未能符合所在的业务场景，造成录制的语音语气生硬不自然，播报不连贯；且话术录制过程中的语句转折或语调变化容易导致录制到的语音前后音色差异，进而影响人机交互时用户的体验。

因此，如何获取一种根据应答场景合成具有统一音色、自然交互的语音，成为本领域技术人员亟待解决的技术问题。

发明内容

鉴于以上内容，本发明提供一种语音合成方法、电子装置及计算机可读存储介质，其主要目的是根据应答场景合成具有音色统一的语音，使人机交互中语音自然连贯，进而提升用户的体验度。

为实现上述目的，本发明提供一种语音合成方法，应用于电子装置，该方法包括：

获取步骤：获取应答场景中的预设话术，所述话术包括固定文本和变量文本；

第一录制步骤：根据所述应答场景从预设语音库筛选出与所述应答场景匹配的音色特征，根据筛选出的所述音色特征对所述话术中的固定文本进行录制，得到包含所述音色特征的固定语音，所述音色特征包括声音的基频、语速、音调以及符号间隔时长中的一项或几项；

第二录制步骤：根据筛选出的所述音色特征对所述话术中的变量文本进行语音合成，得到与所述固定语音具有相同音色特征的变量语音；及