[发明专利]基于抽样的线性阈值模型下的影响力最大化方法在审
申请号: | 201710176882.0 | 申请日: | 2017-03-22 |
公开(公告)号: | CN106971347A | 公开(公告)日: | 2017-07-21 |
发明(设计)人: | 陈崚;贾苏 | 申请(专利权)人: | 扬州大学 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00 |
代理公司: | 南京理工大学专利中心32203 | 代理人: | 唐代盛 |
地址: | 225009 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 抽样 线性 阈值 模型 影响力 最大化 方法 | ||
技术领域
本发明属于社会网络科学领域,特别是一种基于抽样的线性阈值模型下的影响力最大化方法。
背景技术
个体与个体、群体与个体之间存在着相互影响的关系,例如个体依赖于群体的行为有利于猎食或者减少被捕获的可能。人类作为具有复杂交流手段的高级社会性动物,社会影响力在社会生活中更是无处不在。小到听歌大到政治观点,我们的决定深刻的受着朋友、亲人的影响。深入的认识影响力的产生和传播模式有助于了解人类的个体和群体的行为,进而可以预期人们的行为,为政府、机构、企业等部门提供可靠地依据。
在计算机科学领域,基于互联网和大数据的影响力传播研究也从21世纪开始兴起。影响力传播的研究主要有三大支柱:第一是影响力传播的模型,主要描述影响力在社交网络中如何传播、有何特点和性质;第二是影响力传播的学习,即如何利用网络大数据挖掘学习影响力传播模式和具体传播模型的参数;第三是影响力传播优化,着重于考虑在不同的传播模型下,如何通过施加外部作用(比如选取有影响力的初始传播用户和改变传播途径等)来扩大希望传播的影响力或者控制和减弱不希望传播的影响力,也包括有效的监控影响力的传播等。
在传统的线性阈值模型中,每条有向边(u,v)∈E上都有一个权重w(u,v)∈[0,1]。直观上来说,w(u,v)反映了节点u在节点v的所有邻居中影响力的重要性占比。要求若是,则节点v在时刻t被激活(v∈St);否者,节点v仍然保持不活跃状态。当某一时刻不再有新的节点被激活时,传播过程结束。可以将模型中节点v的阈值看成一个节点对一个新实体的接受倾向:阈值越高,节点v越不容易被影响;反之,阈值越低越容易被影响。相比于经典的独立级联模型,节点v的入邻居中的任何一个都不可以单独的激活,但几个入邻居联合起来就可能是对节点v的影响力权重超过了节点v的阈值,从而使得节点v被激活。
Kempe D等人在Kempe D,Kleinberg J,Maximizing the spread of influence through a social network[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2003:137-146.中提出了“live-edge”的模型(LE),其将统线性阈值模型(LT)下影响力扩散看成了一种离散随机的过程。LE模型中依据节点v的入边使用赌轮法选取,一旦这一条边被选中,则将会被标注为‘live’,而这个节点的其他节点则为‘dead’。传统的LT模型下对于影响力的估计需要一个扩散的过程,这也是LT模型下最为耗时的部分。
影响力最大化问题实际上是在给定节点个数的情况下,在网络中选择种子节点,使得最终被激活的节点数量最大化。Kempe D证明了这一个问题是一个NP-hard,所以现有的方法大多是基于贪心算法及其改进后的一些算法,贪心算法的时空复杂性很高,并且只能是对最优解的一种逼近。在大规模网络(超过500K条边)中使用贪心算法带来的开销是难以忍受的。而且选择不同的种子节点的个数的种子集合时,都需要重新计算,在线社交网络分析中显示出较大的弊端。
Chernoff界是一种常用的抽样方法,其依据于置信度、误差和样本期望就可以得出需要抽样的样本大小,抽样后的样本在置信度下对全部样本具有充分的代表性;得到有向图中路径的准确的数学期望,一般使用随机游走的方法,方法精度不是太好。
发明内容
本发明所解决的技术问题在于提供一种基于抽样的线性阈值模型下的影响力最大化方法,提出了节点影响力指标Pr(u),在面对不同大小的种子集合时可以一次计算,多次选取;本发明采用于基于抽样的方法,克服了传统线性阈值算法在进行多次计算种子集合时面临的时间复杂度高、空间复杂度高等问题。
本发明与现有技术相比,其显著优点:
(1)该方法不仅能对最终影响力做出预测,而且通过计算节点的影响力指标可以实现一次计算,多次选取种子集合,因此本发明的方法计算速度较快,显著提高了可重用性。
(2)该方法在初期不需要固定种子节点的数量,具有较高的灵活性能。
(3)本发明的计算开销及存储开销和传统的线性阈值算法相当,但是却可以取得更高质量的预测结果。
实现本发明目的的技术解决方案为:
一种基于抽样的线性阈值模型下的影响力最大化方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710176882.0/2.html,转载请声明来源钻瓜专利网。