[发明专利]一种语音合成方法、装置、设备及计算机可读存储介质在审

申请号：	202110667616.4	申请日：	2021-06-16
公开（公告）号：	CN113838448A	公开（公告）日：	2021-12-24
发明（设计）人：	阳珊;胡娜;李广之;苏丹	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/04;G10L13/08
代理公司：	北京派特恩知识产权代理有限公司 11270	代理人：	李昂;张颖玲
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音合成方法装置设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种语音合成方法、装置、设备及计算机可读存储介质，涉及人工智能领域的语音技术；该方法包括：获取语句文本；其中，语句文本记载了当前时刻等待进行语音合成的对话内容；基于语句文本，构建出带有自发行为标签的文本特征；其中，自发行为标签指明了自发声学行为在对话内容中的出现位置和类型；对文本特征进行特征转换，得到语句文本对应的声学特征；利用声学特征，生成与语句文本对应的带有自发声学行为的合成语音。通过本申请，能够提高合成语音的逼真程度。

技术领域

本申请涉及人工智能领域中的语音技术，尤其涉及一种语音合成方法、装置、设备及计算机可读存储介质。

背景技术

语音合成技术是生成人造语音的技术，其可以应用在智能客服、机器人等领域。虽然在语音合成过程中，可以通过在语音合成过程中使用上下文文本和语音信息，或者是通过使用上下文声学编码器，以提高合成语音的自然程度，然而，相关技术中，仍旧是使用固定风格来合成语音，从而所得到的合成语音的拟人程度较低，最终导致合成语音的逼真程度较低。

发明内容

本申请实施例提供一种语音合成方法、装置、设备及计算机可读存储介质，能够提高合成语音的逼真程度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种语音合成方法，包括：

获取语句文本；其中，所述语句文本记载了等待进行语音合成的对话内容；

基于所述语句文本，构建出带有自发行为标签的文本特征；其中，所述自发行为标签指明了自发声学行为在所述对话内容中的出现位置和类型；

对所述文本特征进行特征转换，得到所述语句文本对应的声学特征；

利用所述声学特征，生成与所述语句文本对应的带有所述自发声学行为的合成语音。

本申请实施例提供一种语音合成方法，包括：

获取当前训练语句文本的前置训练语句文本的前置训练声学特征、所述当前训练语句文本的当前真值声学特征，以及所述前置训练语句文本的真值对象信息；

利用初始特征编码器和初始特征提取网络层，从所述前置训练声学特征中提取出前置训练上下文特征，以及从所述当前真值声学特征中提取出基准上下文特征；

利用所述基准上下文特征，以及从所述前置训练上下文特征预测出的当前训练上下文特征之间的第一损失值，对所述初始特征提取网络层进行参数调整，得到预设特征提取网络层；所述预设特征提取网络层用于提取上下文特征；