[发明专利]一种针对少量标注样本的空管语音识别方法及装置有效
申请号: | 202010663698.0 | 申请日: | 2020-07-10 |
公开(公告)号: | CN111785257B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 林毅;杨波;张建伟 | 申请(专利权)人: | 四川大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16;G10L15/22;G10L15/26;G08G5/00 |
代理公司: | 四川力久律师事务所 51221 | 代理人: | 冯精恒 |
地址: | 610065 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 少量 标注 样本 语音 识别 方法 装置 | ||
1.一种针对少量标注样本的空管语音识别方法,其特征在于,包括以下步骤:
a:采集空管语音并对所述空管语音进行预处理,得到梅尔频率倒谱系数特征图;
b:将所述梅尔频率倒谱系数特征图输入到预先建立的空管语音识别模型;
c:输出所述空管语音对应的指令文本信息;
所述空管语音识别模型包括主干网络和全连接预测层;所述主干网络采用降噪自编码器模型网络进行无监督预训练得到;所述全连接预测层用于优化模型参数;所述降噪自编码器网络以所述主干网络作为编码器,以所述主干网络的镜像结构作为解码器,并在所述编码器和所述解码器对应的隐藏层之间建立残差连接,构成降噪自编码器网络;
具体的,所述空管语音识别模型的训练包括以下步骤:
S1:搜集未标注语料数据并获取其中的空管语音,对所述空管语音进行预处理,得到梅尔频率倒谱系数特征图;所述未标注语料数据包括连续的原始空管语音;
S2:建立主干网络;所述主干网络包括卷积神经网络模块和长短时记忆模块;
S3:将所述梅尔频率倒谱系数特征图输入降噪自编码器网络,采用所述降噪自编码器网络对所述主干网络进行无监督预训练,得到第一空管语音识别模型;
S4:在所述第一空管语音识别模型上建立全连接预测层,构建出第二空管语音识别模型;
S5:对所述第二空管语音识别模型进行有监督训练,输出空管语音识别模型。
2.根据权利要求1所述的一种针对少量标注样本的空管语音识别方法,其特征在于,对所述空管语音进行的预处理包括以下步骤:
步骤1:将所述空管语音分割为多个语音片段,所述语音片段包括单个说话人的语音指令;
步骤2:对所述语音片段进行筛选,去掉静音和噪音数据;
步骤3:将所述语音片段按t1毫秒帧长和t2毫秒帧移进行分帧处理得到T个语音帧;
步骤4:将所述T个语音帧转换成13维的梅尔频率倒谱系数特征图,计算所述梅尔频率倒谱系数特征图的一阶和二阶导数,获得39维的梅尔频率倒谱系数特征图,所述梅尔频率倒谱系数特征图的维度为(T,39)。
3.根据权利要求2所述的一种针对少量标注样本的空管语音识别方法,其特征在于,所述步骤S3包括如下步骤:
S31:将所述梅尔频率倒谱系数特征图作为所述降噪自编码器网络输入和输出对所述主干网络进行模型训练;
S32:在所述梅尔频率倒谱系数特征图上使用随机掩码预测策略;
S33:计算模型训练的损失函数,得到第一空管语音识别模型。
4.根据权利要求3所述的一种针对少量标注样本的空管语音识别方法,其特征在于,所述步骤S33中损失函数的计算公式为:其中,N为批次处理训练样本的数量,Fi*为第i个样本的语音特征,为计算误差时的掩码,其中Ti为语音帧的数量,当第j帧被选中进行掩码处理时,为1,否则为0,j∈[1,Ti]。
5.根据权利要求3所述的一种针对少量标注样本的空管语音识别方法,其特征在于,所述步骤S32包括:
S321:选择一个所述语音片段,从中选择15%的语音帧进行掩码处理,并保持其余部分的特征值不变;
S322:被选中掩码处理的语音帧按如下分段函数进行处理;
其中p为随机概率,且p∈[0,1],ft表示时标为t的原始语音特征,表示时标为t时掩码处理之后的语音特征,ξ为随机噪声,满足ξ∈(μ,δ),mean函数为平均操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010663698.0/1.html,转载请声明来源钻瓜专利网。