[发明专利]语音对齐网络的训练方法、语音对齐方法及电子设备在审

申请号：	202111550130.9	申请日：	2021-12-17
公开（公告）号：	CN114373480A	公开（公告）日：	2022-04-19
发明（设计）人：	张斌	申请（专利权）人：	腾讯音乐娱乐科技（深圳）有限公司
主分类号：	G10L25/48	分类号：	G10L25/48;G10L25/30
代理公司：	北京金知睿知识产权代理事务所(普通合伙) 11379	代理人：	谭彦闻
地址：	518000 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音对齐网络训练方法电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音对齐网络的训练方法，其特征在于，包括如下步骤：

获取标注文本序列和音频特征序列；

将所述音频特征序列输入到编码器网络，获取音频特征编码序列；

基于所述音频特征编码序列和所述标注文本序列，获取对齐损失函数的值；

将所述标注文本序列和所述音频特征编码序列输入到基于注意力机制的解码器网络，获取音频特征解码序列；

基于所述音频特征解码序列和所述标注文本序列，获取注意力损失函数的值；

若所述对齐损失函数的值大于第一损失阈值或所述注意力损失函数的值大于第二损失阈值，基于所述对齐损失函数的值和所述注意力损失函数的值，迭代更新所述编码器网络和所述解码器网络，并返回执行所述获取标注文本序列和音频特征序列的步骤，直至所述对齐损失函数的值小于等于第一损失阈值和所述注意力损失函数的值小于等于第二损失阈值；

将最后一次更新后的编码器网络作为所述语音对齐网络。

2.根据权利要求1所述的训练方法，其特征在于，所述获取对齐损失函数的值，包括：

将所述音频特征编码序列和所述标注文本序列的每一种对齐分布的概率求和，获取概率总和值；

对所述概率总和值取负对数，将结果作为所述对齐损失函数的值。

3.根据权利要求1所述的训练方法，其特征在于，所述编码器网络为轻量级端到端网络。

4.根据权利要求1所述的训练方法，其特征在于，所述标注文本序列包括以字为单位的标注文本序列或者以音素为单位的标注文本序列。

5.一种语音对齐的方法，其特征在于，包括：

获取目标文本序列和目标音频，所述目标文本序列为所述目标音频的歌词文本序列；

将所述目标音频的音频特征序列输入到所述权利要求1～4中任一训练方法生成的语音对齐网络，获取目标音频特征编码序列；

基于所述目标音频特征编码序列，将所述目标文本序列与所述目标音频对齐。

6.根据权利要求5所述的方法，其特征在于，所述目标音频特征编码序列为目标文本序列中各个字或者各个音素在各个时刻的后验概率分布。

7.根据权利要求6所述的方法，其特征在于，所述基于所述目标音频特征编码序列，将所述目标文本序列与所述目标音频对齐，包括：