[发明专利]基于异构图神经网络的高阶关系知识蒸馏方法及系统在审
申请号: | 202210553500.2 | 申请日: | 2022-05-20 |
公开(公告)号: | CN115115862A | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 刘静;郝沁汾;叶笑春;范东睿 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06V10/762 | 分类号: | G06V10/762;G06V10/764;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;陈思远 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 构图 神经网络 关系 知识 蒸馏 方法 系统 | ||
1.一种基于异构图神经网络的高阶关系知识蒸馏方法,其特征在于,包括:
步骤S1、分别获取待蒸馏知识的异构图神经网络模型,作为教师模型,获取待接受知识的异构图神经网络模型,作为学生模型,获取该教师模型和该学生模型的输出层的模型预测值和中间图卷积层异构节点嵌入表示;
步骤S2、基于该教师模型和该学生模型的模型预测值,通过节点级知识蒸馏提取该教师模型的一阶节点级软标签知识;
步骤S3、基于该教师模型和该学生模型的中间图卷积层嵌入表示,通过关系级知识蒸馏提取该教师模型的二阶关系级异构语义知识;
步骤S4、整合该一阶节点级软标签知识和该二阶关系级异构语义知识,得到高阶关系知识,基于该高阶关系知识训练该学生模型,使用训练完成的学生模型用于指定任务。
2.如权利要求1所述的基于异构图神经网络的高阶关系知识蒸馏方法,其特征在于,该步骤S1包括:
获取异构数据集D,其包括n个训练集样本,每个样本的特征维度是d维;构建相同配置的教师模型T和学生模型S,各包含5层:输入层、第一层卷积层、第二层卷积层、MLP线性变换层和Softmax输出层;教师和学生神经网络参数分别为Wt和Ws,卷积层采用的激活函数RELU为f(x)=max(x,0);
该教师模型和该学生模型的中间图卷积层异构节点嵌入表示包括:
输入的样本特征为h0,卷积层的表达为h,则ht=RELU(Wt*h0),hs=RELU(Ws*h0);MLP线性变换层的输出表达为z,则教师和学生模型的线性变换层的输出表达分别是zt和zs;
该教师模型和该学生模型的模型预测值包括:Softmax输出层的表达为p,则pt=Softmax(zt),ps=Softmax(zs)。
3.如权利要求2所述的基于异构图神经网络的高阶关系知识蒸馏方法,其特征在于,该步骤S2包括:
采用教师和学生模型预测值pt,ps,使用节点级知识蒸馏方法将教师模型中的软标签知识转移到学生模型中,得到一阶节点级蒸馏损失LNKD作为该一阶节点级软标签知识:
LNKD=(1-α)LCE+αLKD
其中分别是基本的交叉熵损失和蒸馏损失,α是平衡交叉熵损失和蒸馏损失的超参数,D(·)是KL度量函数;另外是带有温度系数τ缩放的sfotmax概率输出。
4.如权利要求3所述的基于异构图神经网络的高阶关系知识蒸馏方法,其特征在于,该步骤S3包括:
采用教师和学生中间卷积层嵌入表示ht,hs,使用关系级知识蒸馏方法将教师模型中的高阶语义关系知识转移到学生模型中;
教师和学生网络模型的相关矩阵MetaCorr为:
其中k是相应异构数据集D对应的异构节点类型总数,i,j表示不同类型的节点;为高斯核函数;
对中间层嵌入进行非线性变换,然后应用一个共享的注意向量q得到学生模型的注意值
其中Ws是教师模型的权重矩阵,bs是偏差向量;
对注意值进行归一化处理,通过softmax函数得到最终的注意系数
得到二阶关系级知识蒸馏损失LRKD,作为二阶关系级异构语义知识;
其中D是均方误差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210553500.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种石榴石砂加工用筛选设备及筛选方法
- 下一篇:水肿的测量