[发明专利]语音合成方法、电子装置及存储介质在审
申请号: | 201910915659.2 | 申请日: | 2019-09-25 |
公开(公告)号: | CN110534088A | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 李晋;叶子云;周成成 | 申请(专利权)人: | 招商局金融科技有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/02 |
代理公司: | 44347 深圳市沃德知识产权代理事务所(普通合伙) | 代理人: | 高杰;于志光<国际申请>=<国际公布>= |
地址: | 518000 广东省深圳市福田区华富街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 音色特征 应答场景 固定语音 固定文本 语音合成 预设 合成 文本 计算机存储介质 筛选 电子装置 语义技术 语音库 连贯 拼接 音色 录制 统一 | ||
本发明涉及语音语义技术领域,提供了一种语音合成方法、电子装置及计算机存储介质,该方法包括:获取应答场景中的预设话术,所述话术包括固定文本和变量文本;根据所述应答场景从预设语音库中筛选出与所述应答场景相应的音色特征对所述话术中的固定文本进行录制,得到固定语音;再根据筛选出的所述音色特征对所述话术中的变量文本进行语音合成,得到与所述固定语音具有相同音色特征的变量语音;最后,拼接所述固定语音和所述变量语音,生成具有所述音色特征的合成语音。本发明根据应答场景合成具有音色统一的语音,使人机交互中语音自然连贯,进而提升用户的体验度。
技术领域
本发明涉及语音语义技术领域,尤其涉及一种语音合成方法、电子装置及计算机可读存储介质。
背景技术
随着人工智能技术的发展,人机交互中的语音播报要求具备连贯性和自然度,而语音播报是根据录制的话术文本进行复读。
然而,现有机器在录制话术时未考虑实际的业务场景,采用一个声调录制不同业务场景的各种话术,使得有的话术录制未能符合所在的业务场景,造成录制的语音语气生硬不自然,播报不连贯;且话术录制过程中的语句转折或语调变化容易导致录制到的语音前后音色差异,进而影响人机交互时用户的体验。
因此,如何获取一种根据应答场景合成具有统一音色、自然交互的语音,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于以上内容,本发明提供一种语音合成方法、电子装置及计算机可读存储介质,其主要目的是根据应答场景合成具有音色统一的语音,使人机交互中语音自然连贯,进而提升用户的体验度。
为实现上述目的,本发明提供一种语音合成方法,应用于电子装置,该方法包括:
获取步骤:获取应答场景中的预设话术,所述话术包括固定文本和变量文本;
第一录制步骤:根据所述应答场景从预设语音库筛选出与所述应答场景匹配的音色特征,根据筛选出的所述音色特征对所述话术中的固定文本进行录制,得到包含所述音色特征的固定语音,所述音色特征包括声音的基频、语速、音调以及符号间隔时长中的一项或几项;
第二录制步骤:根据筛选出的所述音色特征对所述话术中的变量文本进行语音合成,得到与所述固定语音具有相同音色特征的变量语音;及
拼接步骤:拼接所述固定语音和所述变量语音,生成具有所述音色特征的合成语音。
优选地,所述语音库的建立步骤包括:
获取各种应答场景对应的话术样本;
接收对每种应答场景的话术样本进行录制得到的每一段语音;及
从每一段语音中提取得到相应的音色特征建立语音库。
优选地,所述第二录制步骤包括:
对所述话术中的变量文本进行参数设置,所述参数设置包括调整所述音色特征的基频、语速、音调及/或符号间隔时长的参数。
优选地,所述拼接步骤包括:
测试生成的所述合成语音的语音质量MOS值;
当所述语音质量MOS值低于预设阈值时,判断所述合成语音的语音质量不合格,生成语音质量不合格的日志信息;及
根据所述语音质量不合格的日志信息确定出所述合成语音中不合格语音的片段位置,并编辑修正。
优选地,在所述拼接步骤后,该方法还包括:
播报步骤:将生成的所述合成语音植入自动应答系统,供所述自动应答系统根据接收到的用户输入的操作进行对应的语音播报。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于招商局金融科技有限公司,未经招商局金融科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910915659.2/2.html,转载请声明来源钻瓜专利网。