[发明专利]一种语音合成方法、装置、设备及计算机可读存储介质在审
申请号: | 202110667616.4 | 申请日: | 2021-06-16 |
公开(公告)号: | CN113838448A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 阳珊;胡娜;李广之;苏丹 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/08 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 李昂;张颖玲 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 方法 装置 设备 计算机 可读 存储 介质 | ||
本申请提供了一种语音合成方法、装置、设备及计算机可读存储介质,涉及人工智能领域的语音技术;该方法包括:获取语句文本;其中,语句文本记载了当前时刻等待进行语音合成的对话内容;基于语句文本,构建出带有自发行为标签的文本特征;其中,自发行为标签指明了自发声学行为在对话内容中的出现位置和类型;对文本特征进行特征转换,得到语句文本对应的声学特征;利用声学特征,生成与语句文本对应的带有自发声学行为的合成语音。通过本申请,能够提高合成语音的逼真程度。
技术领域
本申请涉及人工智能领域中的语音技术,尤其涉及一种语音合成方法、装置、设备及计算机可读存储介质。
背景技术
语音合成技术是生成人造语音的技术,其可以应用在智能客服、机器人等领域。虽然在语音合成过程中,可以通过在语音合成过程中使用上下文文本和语音信息,或者是通过使用上下文声学编码器,以提高合成语音的自然程度,然而,相关技术中,仍旧是使用固定风格来合成语音,从而所得到的合成语音的拟人程度较低,最终导致合成语音的逼真程度较低。
发明内容
本申请实施例提供一种语音合成方法、装置、设备及计算机可读存储介质,能够提高合成语音的逼真程度。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种语音合成方法,包括:
获取语句文本;其中,所述语句文本记载了等待进行语音合成的对话内容;
基于所述语句文本,构建出带有自发行为标签的文本特征;其中,所述自发行为标签指明了自发声学行为在所述对话内容中的出现位置和类型;
对所述文本特征进行特征转换,得到所述语句文本对应的声学特征;
利用所述声学特征,生成与所述语句文本对应的带有所述自发声学行为的合成语音。
本申请实施例提供一种语音合成方法,包括:
获取当前训练语句文本的前置训练语句文本的前置训练声学特征、所述当前训练语句文本的当前真值声学特征,以及所述前置训练语句文本的真值对象信息;
利用初始特征编码器和初始特征提取网络层,从所述前置训练声学特征中提取出前置训练上下文特征,以及从所述当前真值声学特征中提取出基准上下文特征;
利用所述基准上下文特征,以及从所述前置训练上下文特征预测出的当前训练上下文特征之间的第一损失值,对所述初始特征提取网络层进行参数调整,得到预设特征提取网络层;所述预设特征提取网络层用于提取上下文特征;
基于所述第一损失值、所述前置训练声学特征和所述真值对象信息,对所述初始特征编码器进行参数调整,得到预设特征编码器;其中,所述预设特征编码器用于保留风格信息和消除对象信息。
在本申请的一些实施例中,所述基于所述第一损失值、所述前置训练声学特征和所述真值对象信息,对所述初始特征编码器进行参数调整,得到预设特征编码器,包括:
对从所述前置训练声学特征中提取出的前置训练语音特征进行梯度反转,得到反转后的前置训练语音特征;
对所述反转后的前置训练语音特征进行对象信息的预测,得到预测对象信息;
对所述预测对象信息和所述真值对象信息之间差异进行计算,得到第二损失值;
利用所述第一损失值和所述第二损失值对初始特征编码器进行参数调整,得到所述预设特征编码器。
本申请实施例提供一种语音合成装置,包括:
信息获取模块,用于获取语句文本;其中,所述语句文本记载了等待进行语音合成的对话内容;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110667616.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电气绝缘监测装置
- 下一篇:语音识别方法、装置、设备及存储介质