[发明专利]基于图基元的图嵌入学习方法有效
申请号: | 202010384595.0 | 申请日: | 2020-05-08 |
公开(公告)号: | CN111581445B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 杨洋;邵平 | 申请(专利权)人: | 杨洋;邵平 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G16C20/50;G16C20/70 |
代理公司: | 浙江杭州金通专利事务所有限公司 33100 | 代理人: | 许可唯 |
地址: | 310027 浙江省杭州市西湖区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图基元 嵌入 学习方法 | ||
本发明提供一种基于图基元的图嵌入学习方法,将各种不同结构的图基元(Motif)作为超节点插入网络,并构建一个由Motif超节点与图中原始节点组成的异构网络;为了从异构网络生成语料库,提出一种基于Motif的随机游走策略,确保具有高连通性或高结构相似性的节点在语料库中相对靠近。本发明的方法不仅能够学习得到图中节点的嵌入向量,还能得到不同的图基元Motif的嵌入向量;学习得到的图基元Motif的嵌入向量使得本发明能够有效处理动态场景下的归纳学习问题,对于动态图中新进入的节点,通过使用已经学得的图基元嵌入向量的算法,能够在新节点周围快速统计各种基元的频率,并加权求和快速计算得到新进入节点的嵌入向量。
技术领域
本发明涉及图形处理技术领域,具体涉及一种基于图基元的图嵌入学习方法。
背景技术
在日常生活中,图结构数据应用广泛。在生物化学领域,分子可以被视为图,各个原子被视为是节点,通过化学键相连;在学术引用网络中,发表的论文或学者通过彼此的引用相互连接;在电子商务领域,推荐系统可以根据基于用户和产品构成的图来进行高效精准地推荐。图结构具有不规则性:节点可能具有不同的邻居数量,节点本身可能带有复杂的特征,边也有多种形态,例如有向边、无向边、有权边、无权边等等。相比于其他结构,图结构能方便地表达数据的特征。
图嵌入(Graph Embedding)是一种将图结构的节点映射到低维空间向量的图学习方法,该方法能够有效处理例如节点分类、异常检测等下游任务。在自然语言处理(NLP,natural language process)模型的启发下,图嵌入学习算法中许多算法以节点作为单词,采用随机游走(Random Walk)以生成路径作为“上下文”采集语料,然后将采集的语料输入到Skip-gram模型中,从而学习得到图嵌入向量。该方法将图中的节点映射到低维度空间中,原图中相似的节点在低维度空间中也会接近。关键的问题是如何衡量节点之间的相似度,从而能够更好地处理下游任务。前人的算法主要通过节点之间的连通性与结构相似性这两点来衡量节点之间的相似性,大致可以分为以下几类:(1)基于连通性的算法:这些算法将紧密相连的节点或者具有多个公共邻居的节点视为高相似性,例如DeepWalk、node2vec、LINE等,在原图中接近的点在经过这些算法学习后得到的嵌入向量也会较为相似;(2)基于结构相似性的算法:结构相似性衡量两个节点是否拥有相似的局部结构(自我中心网络ego-network),例如struc2vec等,在原图中结构性相似的点在经过这些算法学习后得到的嵌入向量会较为相似;(3)基于多种相似性或概率分布的算法:目前也有一些并不仅仅单一考虑了连通性或结构相似性,例如VERSE、GraphWave,VERSE采用了三种定义的相似度,即社区结构(Community structure)、节点角色(Roles)和结构对等(Structuralequivalence),GraphWave则是采用概率分布的方式来度量节点之间的相似度。
然而,真实世界的数据是非常复杂的,具有冗杂噪音。上述已知模型具有以下不足:1)采用单一相似性度量标准无法很好地捕捉图中的信息特征,会导致一定的信息损失,例如基于结构相似度的算法不适用于强同质性的图数据,例如具有相同兴趣的用户连接的可能性比随机连接的可能性更大,而仅考虑连通性的算法会在重视结构性的任务中失败。2)过去这些模型都只适用于静态图,无法处理动态场景下的归纳学习(inductivelearning)任务。3)过去的模型无法在学习图嵌入向量的同时进一步生成对某个群体的表示向量,例如在社交网络中,闭合三角形的图基元motif表示节点用户经常彼此相互介绍朋友认识,而现有模型无法明确和定量地学习表示社交场景中的这种行为或是倾向于介绍朋友认识的这个团体。
本发明是基于图基元的图嵌入学习方法,图基元(Motif)是构成图的基本模块,描述了不同节点之间特定连接的子图结构。图基元(Motif)作为图中频繁出现的子图结构,蕴含着丰富的信息。图基元(Motif)在生物信息学、神经科学、生物学和社交网络等领域中都有着广泛的应用,例如在社交网络中闭合三角结构的图基元(Motif)表示该网络中的人倾向于互相介绍朋友认识,而开三角结构的图基元(Motif)表示相反的意思。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杨洋;邵平,未经杨洋;邵平许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010384595.0/2.html,转载请声明来源钻瓜专利网。