[发明专利]一种隐式语义数据增强方法在审
申请号: | 202111459333.7 | 申请日: | 2021-12-02 |
公开(公告)号: | CN114219017A | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 周玉灿;陈晓华;吴大衍;李波;王伟平 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语义 数据 增强 方法 | ||
1.一种隐式语义数据增强方法,其步骤包括:
1)对于一长尾分布的数据集,使用所述数据集中的样本训练神经网络模型,得到一特征提取器F和分类器H;
2)特征提取器F对所述数据集中的样本进行特征提取,利用提取的特征计算每个样本类别的协方差矩阵和类均值,其中协方差矩阵表示每个类别所有特征的语义变换方向,类均值代表了每个类别的特征向量;
3)利用分类器H对所述数据集中的样本进行分类,基于分类结果构造知识图谱用来存储任意两个类别的相似性;
4)利用特征提取器F对所述数据集中的尾部样本进行特征提取,获得尾部样本的语义特征;利用尾部样本类别的协方差矩阵中的语义变换对该尾部样本进行增强;
5)使用所述知识图谱中定义的相似类别的协方差矩阵对增强后的尾部样本类别的语义变化方向进行扩充,得到更新后的协方差矩阵;
6)使用与尾部样本类别相似的类别的类均值对步骤4)所得尾部样本的语义特征进行补充,得到增强后的样本特征;
7)利用步骤6)所得增强后的样本特征和步骤5)所得尾部样本更新后的协方差矩阵,为对应尾部样本建立高斯分布,从所述高斯分布中采样出具有无限语义转换的样本以实现对所述尾部样本的无限增强。
2.根据权利要求1所述的方法,其特征在于,计算每个样本类别的协方差矩阵的方法为:首先计算每个样本类别的类中心其中,Nc是第c个类别lc中的样本数,fi表示lC中第i个样本的特征;然后利用计算得到类别lC的协方差矩阵;其中,D代表了特征维度。
3.根据权利要求2所述的方法,其特征在于,构造所述知识图谱的方法为:使用所述分类器H对所述数据集中的样本进行分类,得到每一样本的分类预测结果H(fi),然后根据H(fi)和对应样本的真实标签构建知识图谱V,ε;其中,V是类别结点,矩阵ε中每个元素εij表示类别li中被预测成lj的样本在类别为li的所有样本中的占比。
4.根据权利要求3所述的方法,其特征在于,步骤6)中,利用得到增强后的样本特征;其中,代表第c个类别的类中心,εc,i代表第c个类别与第i个类别之间的相似关系,μi为第i个类别的类中心。
5.根据权利要求4所述的方法,其特征在于,步骤6)中,将第i个样本的特征fi沿着从中随机采样生成第i个样本的各种语义变换的样本特征,得到第i个样本增强后的样本特征;其中,α、β是设定的强度系数。
6.根据权利要求5所述的方法,其特征在于,对每一尾部类别样本特征增强M次,每次特征增强后的特征对应生成一个样本,则每一所述尾部类别样本对应得到的数据集为其中,yi为第i个尾部样本的类别标签,为第i个尾部样本对应的第k个增强样本,k=1~M。
7.一种神经网络模型的训练方法,其特征在于,采用权利要求1所述方法得到的数据集和损失函数训练神经网络模型;其中,代表神经网络模型对所述数据集中第i个样本xi的第j个输出结果,C为类别总数,Nc为第c个类别的样本总数,权重γ为超参数,为第i个样本在第yi类作出推理变换后推导的输出结果,为第j个类别在分类器全连接层的对应权重向量,为第yi个类别在分类器全连接层的对应权重向量,为第j个类别通过推理得到的推理类中心,为第i个样本在第j个类别通过推理得到新的协方差。
8.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至7任一所述方法中各步骤的指令。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111459333.7/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置