[发明专利]小语种语音语料扩增方法、装置及电子设备和存储介质有效
申请号: | 202110325580.1 | 申请日: | 2021-03-26 |
公开(公告)号: | CN113077783B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 白海钏;杜杨洲 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16;G10L17/04;G10L17/18;G10L25/18;G10L25/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张静 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语种 语音 语料 扩增 方法 装置 电子设备 存储 介质 | ||
1.一种小语种语音语料扩增方法,所述方法包括:
获得小语种语料库中的第一语音的第一频谱特征;
利用声纹属性解耦表示模型中的编码模块对所述第一频谱特征进行编码,得到与所述第一频谱特征对应的多个层级的参数;其中,每个层级的参数对应至少一个声纹属性,至少部分层级的参数中,不同层级的参数一一对应不同的声纹属性;
对所述多个层级的参数中的至少一个层级的参数进行调整,得到调整后的多个层级的参数;其中,对所述至少部分层级的参数中的任意一个层级的参数进行调整时,所述任意一个层级的参数对应的声纹属性的值改变,所述多个层级的参数中的其它层级的参数对应的声纹属性的值保持不变;
利用所述声纹属性解耦表示模型中的解码器对所述调整后的多个层级的参数进行解码,得到第二频谱特征;
基于所述第二频谱特征生成第二语音,对所述第二语音进行存储以获得扩增的小语种语音语料。
2.根据权利要求1所述的方法,所述利用声纹属性解耦表示模型中的编码模块对所述第一频谱特征进行编码,包括:
将所述第一频谱特征转换为图像;利用所述声纹属性解耦表示模型中的编码模块对所述图像进行编码;
或者,
利用所述声纹属性解耦表示模型中的编码模块直接对所述第一频谱特征进行编码。
3.根据权利要求1所述的方法,所述声纹属性解耦表示模型通过如下方式训练得到:
利用小语种语音数据集对生成式对抗网络进行训练,得到训练好的生成式对抗网络;所述训练好的生成式对抗网络中的生成器用于根据多个层级的参数生成频谱特征;其中,每个层级的参数对应至少一个声纹属性,至少部分层级的参数中,不同层级的参数一一对应不同的声纹属性;
利用所述生成器根据多个样本参数生成多个样本频谱特征;每个样本参数为多个层级的参数,每个样本参数用于生成一个样本频谱特征;
以所述样本频谱特征作为所述编码模块的输入,多个层级的参数作为所述编码模块的输出,所述编码模块输出的多个层级的参数趋近于样本参数为目标对所述编码模块进行预训练,得到预训练的编码模块;
利用所述预训练的编码模块和所述生成器构建声纹属性解耦表示模式,所述预训练的编码模块的输出为所述生成器的输入;所述生成器为所述解码器;
将小语种语音样本的频谱特征输入所述声纹属性解耦表示模型,得到所述声纹属性解耦表示模型输出的所述生成器生成的频谱特征;
以所述声纹属性解耦表示模型输出的所述生成器生成的频谱特征趋近于所述小语种语音样本的频谱特征样本为目标对所述预训练的编码模块的参数进行更新。
4.根据权利要求3所述的方法,所述生成式对抗网络为StyleGAN网络。
5.根据权利要求1所述的方法,不同层级的参数一一对应的不同的声纹属性包括如下几个声纹属性中的至少部分:
年龄、性别、音色、音调、语速。
6.根据权利要求1所述的方法,所述获得小语种语料库中的第一语音的第一频谱特征,包括:
对所述第一语音进行预处理,得到预处理后的语音;
获取所述预处理后的语音的频谱特征作为所述第一频谱特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110325580.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:面向多用户的信息传递方法及装置
- 下一篇:一种肖特基二极管的制造方法