[发明专利]一种网络训练方法、数据处理方法及相关设备在审
申请号: | 202111058068.1 | 申请日: | 2021-09-09 |
公开(公告)号: | CN113948060A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 郑念祖;邓利群;王雅圣 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/02;G10L25/27 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 李杭 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 训练 方法 数据处理 相关 设备 | ||
本申请实施例公开了一种网络训练方法、数据处理方法及相关设备,用于语音合成场景。本申请实施例方法包括:获取第一文本以及与第一文本对应的第一语音;获取第一文本的第一音素序列;基于注意力机制获取第一语音与第一音素序列的对应关系;基于动态规划方法修正对应关系得到第一音素序列中各音素的第一时长信息;基于第一音素序列与第一时长信息训练第一预测网络,得到训练好的第一预测网络,训练好的第一预测网络用于预测待处理文本中各音素的时长信息。由于动态规划可以通过单调性等方式推断出未对齐的音素,通过注意力机制与动态规划方法得到音素的时长信息,从而减少音素的遗漏或错位,提升应用于语音合成场景中合成语音的听感。
技术领域
本申请实施例涉及语音合成领域,尤其涉及一种网络训练方法、数据处理方法及相关设备。
背景技术
人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
目前,随着多媒体通信技术的不断发展,作为人机通信重要方式之一的语音合成技术以其方便、快捷的优点受到研究者的广泛关注。在端对端的语音合成(text tospeech,TTS)场景下,为了保证合成语音的听感较好,TTS的模型在训练过程中需要校正音素与语音的对应关系,从而根据该对应关系修正模型输出的语音。常用校正音素与语音对应关系的方式是强制对齐等方式。
然而,上述强制对齐方式中,可能出现音素与语音的对齐效果较差的情况,即可能出现音素的遗漏。
发明内容
本申请实施例提供了一种网络训练方法、数据处理方法及相关设备,通过注意力机制与动态规划方法得到音素的时长信息,从而减少音素的遗漏,提升应用于语音合成场景中合成语音的听感。
本申请实施例第一方面提供了一种网络训练方法,该方法可以由数据处理设备(例如终端设备或服务器)执行,也可以由数据处理设备的部件(例如处理器、芯片、或芯片系统等)执行。该方法包括:获取第一文本以及与第一文本对应的第一语音;获取第一文本的第一音素序列;基于注意力机制获取第一语音与第一音素序列的对应关系,对应关系用于表示第一音素序列中各音素在第一语音中的时长(或者理解为音素占第一语音的帧数,或者音素在第一语音中所占的时长);基于动态规划方法修正对应关系得到第一音素序列中各音素的第一时长信息;基于第一音素序列与第一时长信息训练第一预测网络,得到训练好的第一预测网络,训练好的第一预测网络用于预测待处理文本中各音素的时长信息。其中,该第一语音可以是指单语种/方言的语音,还可以是指包括至少两种语种/方言的语音,具体此处不做限定。
本实施例中,可以基于注意力机制与动态规划方法得到第一文本中各音素的第一时长信息,由于动态规划可以通过单调性等方式推断出未对齐的音素,从而可以减少音素被错误估计(例如音素错位或音素被吞掉)的概率。进而训练的第一预测网络可以实现待处理文本中音素的时长预测。方便应用于语音合成等需要用到音素时长信息的场景。
可选地,在第一方面的一种可能的实现方式中,上述步骤:基于第一音素序列与第一时长信息训练第一预测网络,包括:以第一音素序列作为第一预测网络的输入,以第一损失函数的值小于第一阈值为目标对第一预测网络进行训练得到训练好的第一预测网络,第一损失函数用于表示第一预测网络输出的时长信息与第一时长信息之间的差异。
该种可能的实现方式中,通过不断减小第一预测网络输出的时长信息与第一时长信息之间的差异,可以提升预测网络预测音素时长信息的准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111058068.1/2.html,转载请声明来源钻瓜专利网。