[发明专利]小语种语音语料扩增方法、装置及电子设备和存储介质有效
申请号: | 202110325580.1 | 申请日: | 2021-03-26 |
公开(公告)号: | CN113077783B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 白海钏;杜杨洲 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16;G10L17/04;G10L17/18;G10L25/18;G10L25/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张静 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语种 语音 语料 扩增 方法 装置 电子设备 存储 介质 | ||
本申请实施例公开了一种小语种语音语料扩增方法、装置及电子设备和存储介质,将小语种语料库中的语音的频谱特征转换为多个层级的参数,其中至少部分层级的参数中,不同层级的参数一一对应不同的声纹属性,通过对至少一个层级的参数进行调整,得到调整后的多个层级的参数,然后利用调整后的多个层级的参数生成新的频谱特征;基于新的频谱特征生成新语音作为扩增的小语种语音语料。由于对至少部分层级的参数中的任意一个层级的参数进行调整时,仅该任意一个层级的参数对应的声纹属性改变,其它层级的参数对应的声纹属性保持不变,可以实现对小语种语料库中的语音语料进行多样化扩增。
技术领域
本申请涉及语音处理技术领域,更具体地说,涉及一种小语种语音语料扩增方法、装置及电子设备和存储介质。
背景技术
对语音识别(Automatic Speech Recognition,ASR)模型来说,训练数据需要大规模带有文本标注的语音数据。然而,由于语音数据的收集需要耗费大量人力、物力和时间,尤其是小语种数据录制和标注的难度更高。
目前,为了获取训练ASR模型所需的大量的语音数据,通常是对已有的语音数据进行处理(比如,速度扰动、加噪、加混响等)来提升数据量,但这种简单处理得到的数据类型不够丰富,对ASR模型性能的提升有限。
因此,如何快速获得数据类型丰富的语音数据成为亟待解决的技术问题。
发明内容
本申请的目的是提供一种小语种语音语料扩增方法、装置及电子设备和存储介质,包括如下技术方案:
一种小语种语音语料扩增方法,所述方法包括:
获得小语种语料库中的第一语音的第一频谱特征;
对所述第一频谱特征进行处理,得到与所述第一频谱特征对应的多个层级的参数;其中,每个层级的参数对应至少一个声纹属性,至少部分层级的参数中,不同层级的参数一一对应不同的声纹属性;
对所述多个层级的参数中的至少一个层级的参数进行调整,得到调整后的多个层级的参数;其中,对所述至少部分层级的参数中的任意一个层级的参数进行调整时,所述任意一个层级的参数对应的声纹属性的值改变,所述多个层级的参数中的其它层级的参数对应的声纹属性的值保持不变;
利用所述调整后的多个层级的参数生成第二频谱特征;
基于所述第二频谱特征生成第二语音,对所述第二语音进行存储以获得扩增的小语种语音语料。
上述方法,优选的,对所述第一频谱特征进行处理,得到与所述第一频谱特征对应的多个层级的参数,对所述多个层级的参数中的至少一个层级的参数进行调整,得到调整后的多个层级的参数,利用所述调整后的多个层级的参数生成第二频谱特征,包括:
利用声纹属性解耦表示模型中的编码模块对所述第一频谱特征进行编码,得到所述多个层级的参数;
对所述多个层级的参数中的至少一个层级的参数进行调整,得到调整后的多个层级的参数;
利用所述声纹属性解耦表示模型中的解码器对所述调整后的多个层级的参数进行解码,得到所述第二频谱特征。
上述方法,优选的,所述利用声纹属性解耦表示模型中的编码模块对所述第一频谱特征进行编码,包括:
将所述第一频谱特征转换为图像;利用所述声纹属性解耦表示模型中的编码模块对所述图像进行编码;
或者,
利用所述声纹属性解耦表示模型中的编码模块直接对所述第一频谱特征进行编码。
上述方法,优选的,所述声纹属性解耦表示模型通过如下方式训练得到:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110325580.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:面向多用户的信息传递方法及装置
- 下一篇:一种肖特基二极管的制造方法