[发明专利]基于图简化技术的社交网络中用户影响力估算方法及装置有效
申请号: | 201510336864.5 | 申请日: | 2015-06-17 |
公开(公告)号: | CN104951531B | 公开(公告)日: | 2018-10-19 |
发明(设计)人: | 李荣华;蔡涛涛;毛睿;邱宇轩;秦璐 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市兴科达知识产权代理有限公司 44260 | 代理人: | 王翀 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户影响力 分层抽样 递归 社交网络 估算 概率图 算法 影响力估计 计算节点 剪枝 分层 预设 抽取 | ||
本发明提供了一种基于图简化技术的社交网络中用户影响力估算方法及装置,其中的方法包括:(一)获取待估算用户影响力的社交网络的概率图G,预设抽取可能图的个数N、节点u,以及参数r和t;(二)利用递归分层抽样算法和图简化技术估算概率图G中节点u的影响力。本发明实施例基于图简化技术的递归分层抽样方法集成了图简化的技术,一方面可以较快地剪枝掉那些对估计用户影响力无关的节点和边,从而可以实现快速的影响力估计;另一方面,图简化的过程可以避免在递归分层抽样过程中选取与计算节点影响力无关的边进行分层,从而提高算法的精度。总体上讲,基于图简化技术的递归分层抽样方法较现有方法具有更快的速度和更高的精度。
技术领域
本发明涉及社交网络的影响传播分析、图数据管理,以及图数据挖掘等相关技术领域,尤其涉及一种基于图简化技术的社交网络中用户影响力估算方法及装置。
背景技术
近年来,在线社交网络的分析与挖掘引起了学术界和工业界的广泛兴趣。对于在线社交网络分析,其中的一个重要研究问题是分析和估计社交网络中用户的影响力(参考文献[1]:D.Kempe,J.Kleinberg,and E.Tardos.Maximizing the spread of influencethrough a social network.In KDD,2003)。通过估计用户的影响力,我们可以评估该用户对社交网络中的其它用户的影响程度,从而可以用于社交网络推荐等相关的应用。例如,假设我们知道用户A对用户B具有较大的影响力,那么我们可以推荐A买过的物品给用户B。
通常,我们可以用一个概率图的模型来对一个在线社交网络进行建模,其中图中的一个顶点对应一个用户,图中的一条边对应用户之间的朋友关系,边上的概率值对应朋友之间的相互影响的概率,并且边与边之间的概率是相互独立的。例如,在图1中,用户v1对用户v2的影响概率为0.3。
在一个社交网络中,一个用户的影响力可以定义为该用户在概率图上所能到达的节点个数的期望值。基于这一定义,社交网络中的用户影响力估计问题即为:给定一个用户u和一个概率图G=(V,E,P),估计u在G中所能到达的节点个数的期望。由于这一问题被证明是#P完全的(参考文献[2]:W.Chen,Y.Wang,and S.Yang.Efficient influencemaximization in social networks.In KDD,2009),所以基本上不可能存在多项式时间的算法,除非P=#P。为了计算节点的影响力,现有的文献都是基于蒙特卡罗抽样算法[1,2]。蒙特卡罗抽样算法的具体流程如下:首先,对概率图上所有的边根据其概率值进行抽样,独立重复这一过程N次,从而生成N个“可能图”(possible graph),也称为生产N个样本。接着,我们分别在这N个“可能图”中计算u节点所能到达的节点的个数。然后,我们取均值,从而得到节点u的影响力的一个无偏估计。然而,这种基于蒙特卡罗抽样的算法通常都会产生较大的方差,因此会降低影响力估计的精度。为减少蒙特卡罗抽样算法的方差,在文献[3](R.-H.Li,J.X.Yu,R.Mao,and T.Jin.Efficient and accurate query evaluation onuncertain graphs via recursive stratified sampling.In ICDE,2014)中,Li等人提出了一种基于递归分层抽样的估计算法。Li等人证明该算法能够显著降低基本的抽样算法的方差,从而提高估计的精度。递归分层抽样的具体做法是,从概率图中任意选取r条边,然后根据这r条边的状态对整个可能图样本空间进行分层。第0层对应所有的r条边的状态都是0;也即在该层中,所有可能图都不包含这r条边。第1层对应第1条边的状态为1,其它r-1条边的状态不确定;也即在该层中,所有可能图都包含第1条边。第2层对应第1条边的状态为0,第2条边的状态为1,其它r-2条边的状态不确定;也即在该层中,所有可能图都包含第2条边,并且不包含第1条边。第3层对应第1,2条边状态为0,第3条边的状态为1,其余r-3条边的状态不确定;也即在该层中,所有可能图都包含第3条边,并且不包含第1,2条边。以此类推,第r层对应第1至r-1条的状态为0,第r条边的状态为1,其余边不确定;在该层中,所有可能图都包含第r条边,并且不包含第1至r-1条边。具体分层方法详见图2。这种选取r条边进行分层的策略可以递归地运用到每一层,从而得到递归的分层抽样算法。Li等人证明该算法较基本的蒙特卡罗抽样算法具有更小的方差,从而具有更高的精度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510336864.5/2.html,转载请声明来源钻瓜专利网。