[发明专利]跨语句条件相干的语音编辑方法、系统及终端在审
申请号: | 202310146999.X | 申请日: | 2023-02-21 |
公开(公告)号: | CN116189653A | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 郁程;李阳;祖伟钦;孙芳蕾;田政;汪军 | 申请(专利权)人: | 上海科技大学 |
主分类号: | G10L13/033 | 分类号: | G10L13/033;G10L13/08;G10L19/04;G10L19/20;G10L25/03 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 倪静 |
地址: | 201210 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 条件 相干 语音 编辑 方法 系统 终端 | ||
1.一种跨语句条件相干的语音编辑方法,其特征在于,所述方法包括:
获取待编辑的语音输入信息;其中,所述语音输入信息包括:初始梅尔谱图、当前转录文本语句及其前后的相同目标个数的文本语句;
基于掩码训练的语音编辑模型,根据待编辑的语音信息获得对应的编辑梅尔谱图;
其中,所述语音编辑模型包括:将语音输入信息中的音频特征和上下文语义信息作为条件输入的变分自动编码器以及解码器。
2.根据权利要求1中所述的跨语句条件相干的语音编辑方法,其特征在于,所述变分自动编码器包括:
音素转换模块,用于将输入的当前转录文本语句转换为音素序列信息;
语境信息捕获模块,用于对由当前转录文本语句及其前后的相同目标个数的文本语句重组的各语句对分别捕获语境信息,生成对应各语句对的BERT嵌入信息;
上下文嵌入模块,连接所述音素转换模块以及语境信息捕获模块,用于基于所述音素序列信息、目标说话人特征信息以及各BERT嵌入信息获得跨语句表征输出数据以及音素持续时间;
编辑模块,连接所述上下文嵌入模块,用于基于所述初始梅尔谱图、跨语句表征输出数据以及音素持续时间生成对应的编辑语音数据并输出,以供所述解码器对其解码获得对应的编辑梅尔谱图。
3.根据权利要求2中所述的跨语句条件相干的语音编辑方法,其特征在于,所述上下文嵌入模块包括:
编码子模块,用于对所述音素序列信息以及目标说话人特征信息进行编码;
融合子模块,连接所述编码子模块,用于将编码后的所述音素序列信息、目标说话人特征信息与各BERT嵌入信息进行融合,以获得跨语句表征输出数据并输出;
时间预测子模块,连接所述融合子模块,用于基于所述跨语句表征输出数据进行时间预测并调节,以输出音素持续时间。
4.根据权利要求3中所述的跨语句条件相干的语音编辑方法,其特征在于,所述时间预测子模块包括:
持续时间预测器,用于基于跨语句表征输出数据获得预测音素持续时间;
持续时间调节器,连接所述持续时间预测器,用于基于所述预测音素持续时间进行调节获得音素持续时间。
5.根据权利要求2中所述的跨语句条件相干的语音编辑方法,其特征在于,所述编辑模块包括:
替换处理子模块,用于基于对应目标删除位置区域的删除指示符以及对应目标添加位置区域的添加指示符,对所述初始梅尔谱图进行替换处理获得对应的均值序列处理数据以及方差序列处理数据;
上下文语句处理子模块,用于基于两个一维卷积模块,根据跨语句表征输出数据以及音素持续时间获得对应的跨语句均值序列数据以及跨语句方差序列数据;
编辑输出子模块,连接所述替换处理子模块以及所述上下文语句处理子模块,用于根据均值序列处理数据、方差序列处理数据、跨语句均值序列数据以及跨语句方差序列数据获得编辑参数,以生成对应的编辑语音数据并输出。
6.根据权利要求5中所述的跨语句条件相干的语音编辑方法,其特征在于,所述替换处理子模块包括:
删除编辑单元,用于基于对应目标删除位置区域的删除指示符对梅尔谱图进行修改,并基于两个一维卷积模块获得第一均值序列数据以及第一方差序列数据;
添加编辑单元,连接所述删除编辑单元,用于基于对应目标添加位置区域的添加指示符对所述第一均值序列数据以及第一方差序列数据进行修改,以获得均值序列处理数据以及方差序列处理数据。
7.根据权利要求6中所述的跨语句条件相干的语音编辑方法,其特征在于,所述添加编辑单元包括:
第一处理子单元,用于基于对应目标位置区域的所述添加指示符,将所述第一均值序列数据以及第一方差序列数据分别插入与目标添加位置区域长度相同的序列,以生成第二均值序列数据以及第二方差序列数据;
第二处理子单元,连接所述第一处理子单元,用于对第二均值序列数据以及第二方差序列数据进行一维卷积获得均值序列处理数据以及方差序列处理数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海科技大学,未经上海科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310146999.X/1.html,转载请声明来源钻瓜专利网。