[发明专利]一种隐式语义数据增强方法在审

专利信息
申请号: 202111459333.7 申请日: 2021-12-02
公开(公告)号: CN114219017A 公开(公告)日: 2022-03-22
发明(设计)人: 周玉灿;陈晓华;吴大衍;李波;王伟平 申请(专利权)人: 中国科学院信息工程研究所
主分类号: G06K9/62 分类号: G06K9/62;G06F16/36;G06N3/04;G06N3/08
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 司立彬
地址: 100093 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 语义 数据 增强 方法
【权利要求书】:

1.一种隐式语义数据增强方法,其步骤包括:

1)对于一长尾分布的数据集,使用所述数据集中的样本训练神经网络模型,得到一特征提取器F和分类器H;

2)特征提取器F对所述数据集中的样本进行特征提取,利用提取的特征计算每个样本类别的协方差矩阵和类均值,其中协方差矩阵表示每个类别所有特征的语义变换方向,类均值代表了每个类别的特征向量;

3)利用分类器H对所述数据集中的样本进行分类,基于分类结果构造知识图谱用来存储任意两个类别的相似性;

4)利用特征提取器F对所述数据集中的尾部样本进行特征提取,获得尾部样本的语义特征;利用尾部样本类别的协方差矩阵中的语义变换对该尾部样本进行增强;

5)使用所述知识图谱中定义的相似类别的协方差矩阵对增强后的尾部样本类别的语义变化方向进行扩充,得到更新后的协方差矩阵;

6)使用与尾部样本类别相似的类别的类均值对步骤4)所得尾部样本的语义特征进行补充,得到增强后的样本特征;

7)利用步骤6)所得增强后的样本特征和步骤5)所得尾部样本更新后的协方差矩阵,为对应尾部样本建立高斯分布,从所述高斯分布中采样出具有无限语义转换的样本以实现对所述尾部样本的无限增强。

2.根据权利要求1所述的方法,其特征在于,计算每个样本类别的协方差矩阵的方法为:首先计算每个样本类别的类中心其中,Nc是第c个类别lc中的样本数,fi表示lC中第i个样本的特征;然后利用计算得到类别lC的协方差矩阵;其中,D代表了特征维度。

3.根据权利要求2所述的方法,其特征在于,构造所述知识图谱的方法为:使用所述分类器H对所述数据集中的样本进行分类,得到每一样本的分类预测结果H(fi),然后根据H(fi)和对应样本的真实标签构建知识图谱V,ε;其中,V是类别结点,矩阵ε中每个元素εij表示类别li中被预测成lj的样本在类别为li的所有样本中的占比。

4.根据权利要求3所述的方法,其特征在于,步骤6)中,利用得到增强后的样本特征;其中,代表第c个类别的类中心,εc,i代表第c个类别与第i个类别之间的相似关系,μi为第i个类别的类中心。

5.根据权利要求4所述的方法,其特征在于,步骤6)中,将第i个样本的特征fi沿着从中随机采样生成第i个样本的各种语义变换的样本特征,得到第i个样本增强后的样本特征;其中,α、β是设定的强度系数。

6.根据权利要求5所述的方法,其特征在于,对每一尾部类别样本特征增强M次,每次特征增强后的特征对应生成一个样本,则每一所述尾部类别样本对应得到的数据集为其中,yi为第i个尾部样本的类别标签,为第i个尾部样本对应的第k个增强样本,k=1~M。

7.一种神经网络模型的训练方法,其特征在于,采用权利要求1所述方法得到的数据集和损失函数训练神经网络模型;其中,代表神经网络模型对所述数据集中第i个样本xi的第j个输出结果,C为类别总数,Nc为第c个类别的样本总数,权重γ为超参数,为第i个样本在第yi类作出推理变换后推导的输出结果,为第j个类别在分类器全连接层的对应权重向量,为第yi个类别在分类器全连接层的对应权重向量,为第j个类别通过推理得到的推理类中心,为第i个样本在第j个类别通过推理得到新的协方差。

8.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至7任一所述方法中各步骤的指令。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法的步骤。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111459333.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top