[发明专利]一种图嵌入向量的生成方法及基于图嵌入的社区发现方法在审
申请号: | 202110079198.7 | 申请日: | 2021-01-21 |
公开(公告)号: | CN112765414A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 于东晓;张喜连;罗琦 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/906;G06F16/9536;G06F40/284;G06K9/62 |
代理公司: | 青岛华慧泽专利代理事务所(普通合伙) 37247 | 代理人: | 马千会 |
地址: | 250013 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 嵌入 向量 生成 方法 基于 社区 发现 | ||
本发明属于数据处理技术领域,涉及图嵌入向量的生成方法及基于图嵌入的社区发现方法。一种图嵌入向量的生成方法,包括:获取顶点的核值;获取顶点的邻域结构信息,计算顶点之间的相似度;基于顶点与其相邻邻居的相似度,生成顶点序列;将顶点序列进行词向量训练,生成每个顶点的嵌入向量。本发明,的图嵌入向量的生成方法,通过顶点的核值信息来保持顶点的邻域结构信息,使得结构相似的顶点在嵌入空间中距离较近。通过对获取的图嵌入向量进行聚类或者分类,来进行社区发现。
技术领域
本发明属于数据处理技术领域,涉及一种图嵌入向量的生成方法及基于图嵌入的社区发现方法。
背景技术
互联网时代,从计算机视觉到自然语言处理,在过去的几年里,深度学习技术被应用到了数以百计的实际问题中。而图数据库也因其在处理数据之间的关系方面的卓越表现,在社交网络、电子商务等领域得到了越来越多的应用。在图网络中,内部连接比较紧密的节点子集合对应的子图叫做社区,从图中找出其社区结构的过程就叫做社区发现。自然地,将图数据与深度学习结合起来进行社区发现成了一个可研究的课题。然而,单纯的图数据并不能直接作为深度学习模型的输入,需要将图数据转化为序列数据,因此,图嵌入技术应运而生。
图嵌入技术是指将图嵌入到向量空间,表示为低维向量,同时保留图的结构信息。目前的图嵌入技术可以大致分为基于矩阵分解、基于随机游走、基于神经网络模型三种,具体算法如Line、DeepWalk、SNDE等等。在现有的方法中,多数是考虑顶点对之间的相似度来作为顶点的特征信息,而没有考虑顶点的邻域结构信息。
顶点的核值可以在一定程度上反应该顶点的邻域结构。一个顶点的核值为k首先表明该顶点至少有k个邻居,其次这k个邻居度数也都大于等于k。另外,一个顶点的核值为k表明该顶点在一个k核子图中,这个子图是一个紧密子图,并且这个子图中的所有顶点的度数都大于等于k。综上所述,顶点的核值可以反映出它存在于一个怎么样的紧密子图中,进而可以反映该顶点的邻域结构。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于核值的图嵌入向量的生成方法及基于图嵌入的社区发现方法。
为了实现上述目的,本发明提供的其中一种技术方案是:一种图嵌入向量的生成方法,该方法包括:
获取顶点的核值;
获取顶点的邻域结构信息,计算顶点之间的相似度;
基于顶点与其相邻邻居的相似度,生成顶点序列;
将顶点序列进行词向量训练,生成每个顶点的嵌入向量。
作为本发明的一种优选方式,所述顶点核值的计算方法为:
计算所有顶点的度数;
选择一个度数最小的顶点,其核值即为其度数的值;
遍历上一步骤中顶点的邻居,若某一邻居顶点的度数大于该顶点的的度数,则邻居顶点的度数减1。
进一步优选地,所述顶点之间相似度的计算方法为:
获取距顶点u距离为1,2,…,k的顶点集合,即顶点u的k跳邻居集合
分别获取顶点的k跳邻居集合中邻居顶点的核值分布情况,用向量来表示这个分布;其中表示中核值为t的顶点有多少个;
将顶点u的每一跳邻居集合的向量分别乘以一个衰减系数加起来,整合成一个总的向量du;其中,跳数越大,即k越大,说明这个邻域信息对该顶点的邻域结构情况影响越小,因此,衰减系数越小。
计算顶点u和v对应的向量之间的欧氏距离,进而计算两个顶点之间的相似度。
进一步优选地,顶点序列的生成方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110079198.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种复合正极极片和可充电固态电池
- 下一篇:一种可拼接集成装饰板