[发明专利]一种网络训练方法、数据处理方法及相关设备在审
申请号: | 202111058068.1 | 申请日: | 2021-09-09 |
公开(公告)号: | CN113948060A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 郑念祖;邓利群;王雅圣 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/02;G10L25/27 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 李杭 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 训练 方法 数据处理 相关 设备 | ||
1.一种网络训练方法,其特征在于,所述方法包括:
获取第一文本以及与所述第一文本对应的第一语音;
基于所述第一文本,得到第一音素序列;
基于注意力机制获取所述第一语音与所述第一音素序列的对应关系,所述对应关系用于表示所述第一音素序列中各音素在所述第一语音中的时长;
基于动态规划方法修正所述对应关系得到所述第一音素序列中各音素的第一时长信息;
基于所述第一音素序列与所述第一时长信息训练第一预测网络,得到训练好的第一预测网络,所述训练好的第一预测网络用于预测待处理文本中各音素的时长信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一音素序列与所述第一时长信息训练第一预测网络,包括:
以所述第一音素序列作为所述第一预测网络的输入,以第一损失函数的值小于第一阈值为目标对所述第一预测网络进行训练得到所述训练好的第一预测网络,所述第一损失函数用于表示所述第一预测网络输出的时长信息与所述第一时长信息之间的差异。
3.根据权利要求1或2所述的方法,其特征在于,所述第一语音包括至少两类语种/方言的语音;所述方法还包括:
获取第二文本以及与所述第二文本对应的第二语音,所述第二语音包括所述至少两类语种/方言中的一类语种/方言的语音;
获取所述第二文本的第二音素序列;
获取所述第二音素序列中各音素的第二时长信息;
以所述第二音素序列作为第二预测网络的输入,以第二损失函数的值小于第二阈值为目标对所述第二预测网络进行训练得到所述第一预测网络,所述第二损失函数用于表示所述第二预测网络输出的时长信息与所述第二时长信息之间的差异。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
获取所述第一语音的第一梅尔谱特征;
获取第一发音特征,所述第一发音特征用于描述所述第一语音的音色特征;
以所述第一音素序列、所述第一时长信息以及所述第一发音特征作为第一语音合成网络的输入,以第三损失函数的值小于第三阈值为目标对所述第一语音合成网络进行训练得到训练好的第一语音合成网络与训练好的第一发音特征,所述第三损失函数用于表示所述第一语音合成网络输出的第二梅尔谱特征与所述第一梅尔谱特征之间的差异,所述第二梅尔谱特征是经过所述第一时长信息扩展后得到的。
5.根据权利要求4所述的方法,其特征在于,所述第一语音合成网络包括编码器与自回归解码器;
所述以所述第一音素序列与所述第一时长信息作为第一语音合成网络的输入,以第三损失函数的值小于第三阈值为目标对第一语音合成网络进行训练得到训练好的第一语音合成网络,包括:
基于所述编码器获取所述第一音素序列对应的第一特征;
基于所述第一时长信息对所述第一特征进行扩展得到第二特征;
基于自回归解码器与所述第二特征得到所述第二梅尔谱特征;
以所述第三损失函数的值小于所述第三阈值为目标对所述编码器与所述自回归解码器进行训练,得到所述训练好的第一语音合成网络。
6.根据权利要求5所述的方法,其特征在于,所述基于自回归解码器与所述第二特征得到所述第二梅尔谱特征,包括:
将所述第二特征输入所述自回归解码器得到所述第二梅尔谱特征。
7.根据权利要求5所述的方法,其特征在于,所述基于自回归解码器与所述第二特征得到所述第二梅尔谱特征,包括:
将所述第二特征进行卷积处理得到第三特征;
将所述第三特征输入所述自回归解码器得到所述第二梅尔谱特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111058068.1/1.html,转载请声明来源钻瓜专利网。