[发明专利]一种大规模时序图顶点相似度计算方法在审
申请号: | 201910012983.3 | 申请日: | 2019-01-07 |
公开(公告)号: | CN109684520A | 公开(公告)日: | 2019-04-26 |
发明(设计)人: | 袁野;王国仁;苗壮;王一舒;马玉亮 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901 |
代理公司: | 北京易捷胜知识产权代理事务所(普通合伙) 11613 | 代理人: | 韩国胜 |
地址: | 110169 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似度计算 时序 相似度 计算目标 目标顶点 社交网络 树形索引 数据抽象 随机游走 推荐系统 时间差 索引树 融合 期望 | ||
本发明涉及一种大规模时序图顶点相似度计算方法,其包括如下步骤:S1、将社交网络各个顶点的数据抽象为时序图;S2、通过随机游走方法和路径融合方法建立树形索引,使用Bootstrap抽样方法估计索引树中每层节点时间差的期望,使用Monte Coral方法计算目标顶点与其他顶点的相似度;S3、根据步骤S2计算出的目标顶点与其他顶点相似度,找出与目标定点最相似的k个顶点。本发明的技术方法,使顶点相似度计算的更加准确,用于推荐系统中能够更加精确的对用户进行推荐。
技术领域
本发明涉及一种大规模时序图顶点相似度计算方法,属于数据库技术领域。
背景技术
现实生活中的许多场景可以抽象成图模型,从而进行数据的处理和分析。近年来随着数据科学的迅猛发展,人们对于数据分析结果的精确具有较高的要求,然而当前对于图模型的研究大多集中在静态图上。静态图模型忽略了真实场景中的时间因素,这使得在静态图中的数据分析结果不准确。
顶点相似性计算是图论中的基本问题,广泛应用于社交网络、推荐系统等现实应用。以社交网络为例,可以使用图结构来表示社交网络的拓扑结构,图中顶点表示社交网络中的用户,图中的边可以表示社交网络中用户之间的联系,在社交网络中可以根据用户间的相似性进行朋友推荐等活动,因此计算图中顶点相似性是一个十分重要的问题。当前的研究大多使用静态图对现实场景进行建模,忽略了现实场景中的时间因素,对分析结果造成了很大影响。针对这种情况,应使用时序图对现实场景进行建模,保留时间因素对现实场景的影响。因此如何高效地处理时序图中顶点相似性计算是一个亟待解决的问题。
发明内容
(一)要解决的技术问题
为了解决现有技术的上述问题,本发明提供一种大规模时序图顶点相似度计算方法。
(二)技术方案
为了达到上述目的,本发明采用的主要技术方案包括:
一种大规模时序图顶点相似度计算方法,包括如下步骤:
S1、将社交网络各个顶点的数据抽象为时序图;
S2、通过随机游走方法和路径融合方法建立树形索引,使用Bootstrap抽样方法估计索引树中每层节点时间差的期望,使用Monte Coral方法计算目标顶点与其他顶点的相似度;
S3、根据步骤S2计算出的目标顶点与其他顶点相似度,找出与目标定点最相似的k个顶点。
如上所述的计算方法,优选地,在步骤S1中,所述时序图表示为GT=(V,E,T),其中V表示社交网络中的顶点集合,E表示的是网络中时序边的集合,T表示的各个顶点联系时刻的集合。
如上所述的计算方法,优选地,在步骤S2中,所述树形索引的建立包括:
S20101、对所述时序图GT=(V,E,T)中任意顶点u∈V,创建一颗以u为叶节点的单节点树,并记level(u)=0;
S20102、对每个叶节点进行反向随机游走,即对叶节点u进行反向随机游走,得到时序路径pu=(u,v),其中v∈Γin(u,G);记level(v)=level(u)+1,且节点u到达节点v的时间记为tv(u);
S20103、判断任意两个叶节点生成的时序路径是否符合路径融合条件,若符合则进行路径融合;
否则继续进行反向随机游走;直到节点的入邻节点集为空,或者节点的入邻节点集合均不符合时序路径条件,此时停止生成索引;
S20104、重复步骤S20101-S20103直到生成索引数量达到预期数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910012983.3/2.html,转载请声明来源钻瓜专利网。