[发明专利]一种融合文本属性的异质图表示学习方法在审

专利信息
申请号: 202211217839.1 申请日: 2022-09-30
公开(公告)号: CN115659234A 公开(公告)日: 2023-01-31
发明(设计)人: 李超;王振;闫页宇;赵中英;李香菊;苏令涛;段华;曾庆田 申请(专利权)人: 山东科技大学
主分类号: G06F18/241 分类号: G06F18/241;G06V10/82;G06N3/0464;G06N3/08
代理公司: 青岛智地领创专利代理有限公司 37252 代理人: 种艳丽
地址: 266590 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 文本 属性 图表 学习方法
【说明书】:

发明公开了一种融合文本属性的异质图表示学习方法,属于图数据处理技术领域,该学习方法将文本表示方法与图表示学习方法相结合,基于transformer和图神经网络模型进行构建。首先利用已有节点文本属性进行基于文本编码策略的文本特征表示,并将文本的表示向量融入到异质图中。而后,基于邻居节点的均值聚合以及节点特征变换的方法实现节点缺失属性的补全。最终,将补全属性的异质图输入到已有图神经网络模型,通过端到端的训练策略生成最佳的节点向量。本发明能够深度的融合节点文本属性从而提升图神经网络模型的性能。

技术领域

本发明属于图数据处理技术领域,具体涉及一种融合文本属性的异质图表示学习方法。

背景技术

图结构数据是现实生活中广泛存在的一类数据形式。宏观上的互联网、知识图谱、社交网络数据,微观上的蛋白质、化合物分子等都可以用图结构来建模和表示。异质图能够准确有效建模现实世界中丰富的语义信息和复杂的网络关系。

随着人工智能的发展,真实世界的图数据得到大量的积累,如何深入分析与挖掘这些图数据成为了数据挖掘的研究热点,对图数据研究方法大致如下:

(1)浅层图嵌入模型:图嵌入的目的是将图中的节点投影到低维向量空间,用低维稠密向量来表示网络中的任意节点,从而更灵活地应用于不同数据挖掘任务中;同时在低维向量空间中,节点的表示能够反映节点之间关系以及保留节点的特征信息。当前方法大多基于已有的深度模型并结合网络特征学习节点或边的特征表示,如DeepWalk,将随机游走和skip-gram模型结合来学习节点表示;LINE在一阶邻居相似性的基础上加上二阶相似性,来获取具有丰富信息的节点表示;SDNE借助深度自动编码器来抽取网络结构的非线性特征生成节点表示;metapath2vec则以异质图为研究对象,在meta-paths的引导下生成随机节点序列,然后将序列输入skip-gram模型生成节点表示。与metapath2vec类似,HERec提出了一种类型约束策略,以过滤节点序列并捕获异构图中复杂语义。

(2)图神经网络模型:图神经网络是深层图嵌入模型,将深度学习推广到图结构数据,遵循信息传递框架聚合邻居的信息,该框架分为两个步骤:1)按照节点间的拓扑关系传播信息;2)节点的信息聚合来更新节点表示。图神经网络模型可以分为谱域和空域两种。基于谱域的图神经网络依赖于拉普拉斯矩阵的特征分解,如GCN和FAGCN通过设计不同的核函数聚合邻域的特征信息。基于空域的方法直接在图上定义卷积,从每个节点的邻域中聚合特征信息。如GraphSAGE和GAT设计不同的函数来聚合邻域的特征信息。上述的图神经网络仅适用于同质图。最近的一些研究将图神经网络扩展到异质图,例如HAN首先通过节点级注意力学习不同元路径下邻域节点的重要性;之后通过语义级注意力学习不同元路径的重要性,最后根据重要性来聚合不同元路径下的邻域节点的特征信息。HetGNN首先通过带重启的随机游走对邻居进行采样,然后通过长短期记忆网络(LSTM)与注意力机制聚合邻域中不同类型的节点信息。MAGNN模型首先将不同类型节点的特征信息映射到同一空间下,然后聚合元路径下的信息,最后完成多条元路径下的节点向量的聚合。

从以上研究来看,基于深度学习方法在图数据的表示学习上取得了较好成绩。但是在对图数据进行表示学习中浅层的图嵌入模型和图神经网络模型都存在不能充分挖掘节点文本信息的问题,造成语义信息的损失。因此如何实现图节点文本属性融入和科学准确的属性表示和属性补全,文本属性表示、补全与模型设计之间相互增强成为当下研究需要解决的问题。

已有网络表示学习方法主要针对模型的改进来提高算法性能,随着异质图神经网络研究的深入,研究人员发现完备的节点属性是算法运行的必要前提。已有的研究对于属性的缺失采用一些简单的手工插补方法(例如平均插补、one-hot向量插补)进行补全。这些方法将属性补全与图表示学习过程分开,忽略了准确的属性对于下游任务的重要性,因此很难使用简单插补后的属性来保证模型的性能。尤其是针对节点文本属性的表示与图神经网络的融入。传统的异质图神经网络的节点属性是将文本用one-hot向量表示构建的,存在语义稀疏的问题;对于缺失属性的节点通过均值求和补全属性,这种补全方式会引入噪音信息,从而导致模型的性能降低。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东科技大学,未经山东科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211217839.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top