[发明专利]一种基于图形处理单元的影响最大化并行加速方法有效
申请号: | 201210248732.3 | 申请日: | 2012-07-18 |
公开(公告)号: | CN102819664B | 公开(公告)日: | 2015-02-18 |
发明(设计)人: | 李姗姗;廖湘科;刘晓东;吴庆波;戴华东;彭绍亮;王蕾;付松龄;鲁晓佩;郑思 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06T1/20 | 分类号: | G06T1/20 |
代理公司: | 国防科技大学专利服务中心 43202 | 代理人: | 郭敏 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图形 处理 单元 影响 最大化 并行 加速 方法 | ||
技术领域
本发明涉及海量数据挖掘领域中社会网络影响最大化问题的解决方法,尤 其指针对大规模社会网络的海量用户挖掘,提出的一种基于图形处理单元GPU 的并行加速方法。
背景技术
Web2.0技术的快速发展推动了社会媒体的蓬勃发展。各类社交网站不断 涌现,例如国外的Facebook、Twitter以及国内的人人网、新浪微博等网站用户 数量增长十分迅速,当前Facebook的活跃用户已经超过了8.5亿。社交网站不 仅是人们沟通和交流的桥梁,同时还成了信息传播和扩散的重要媒介。研究表 明,68%的顾客会在购买产品之前询问其家人、朋友的意见。病毒式营销(Viral Marketing)正是利用了用户之间口碑传播的原理,进行品牌推广等网络传销方 法。而且随着社会网络用户的持续快速增长,病毒式营销已经成为一种十分高 效的信息传播方式。
影响最大化问题是社会网络分析中关于影响传播的经典问题。设想如下场 景:一家公司要进行新产品推广,其推广策略是:选择K名顾客免费试用新产 品,之后利用这K名顾客对产品的宣传推广和影响传播吸引更多的顾客购买新 产品,从而达到利益最优的目的。影响最大化问题可以形式化描述为:对于社 会网络图G=(V,E,W),其中V={v0,v1,...,vn-1}是节点集合,V中节点个数 为n;E是节点集合V中节点之间的有向边集合,即E中有向边的条 数为m;W是G中节点权重的集合,表征了各节点的影响力(初始值设定为1, 即仅能影响节点自身)。给定网络图G和初始活跃节点集合中的节点个数K,影 响最大化问题是从节点集合V中选择最佳的K个节点作为初始活跃节点集合S, 通过影响传递,使得影响扩散的最终范围最大。影响最大化问题的核心在于如 何定位网络中最有影响力的K名成员,即网络中的意见领袖,从而通过病毒式 营销使得最终被影响的用户数目最大。影响最大化问题的研究不仅对市场营销 有着十分重要的现实意义,同时还对舆情预警、疫情发现等方面有着十分重要 的应用。自从Pedro Domingos和Matt Richardson于2001年ACM SIGKDD会 议公布的文章Mining the network value ofcustomers中提出影响最大化问题后, 该问题受到了越来越多研究者的关注。David Kempe等人在2003年ACM SIGKDD会议公布的文章Maximizing tte Spread of Influence through a Social Network中证明了影响最大化问题隶属于NP-Hard问题,并且提出了一种爬山 贪心算法来获得近似最优解。虽然爬山贪心算法可以达到1-1/e的最优逼近(e 是自然对数底),但是由于David Kempe采用多次的蒙特卡洛模拟(例如20000 次)来计算各个节点的影响值,因此需要消耗大量时间,而且无法扩展应用到 大规模的网络中。
很多研究人员都致力于设计新的方法来解决影响最大化的效率问题。爬山 贪心算法中的核心问题在于需要多次蒙特卡洛模拟以计算所有节点的影响值。 为了解决该问题,Jure Leskovec等人在ACM SIGKDD2007中公布的文章 Cost-effective Outbreak Detection in Networks中根据影响扩散函数的半模特性 设计了新的优化方法CELF,可以很大程度地降低蒙特卡洛模拟的计算量,从 而减少了计算时间。之后,Wei Chen等人在ACM SIGKDD2009中公布文章 Efficient Influence Maximization in Social Networks,文章中提出了目前最优的贪 心算法MixGreedy。该算法的改进在于在每次蒙特卡洛模拟时为网络中所有节 点计算影响值,因而进一步降低了算法的复杂度。同时MixGreedy整合了CELF 算法,大大降低了算法执行时间。然而由于影响最大化计算复杂度很高,即使 目前最优的MixGreedy算法在处理大规模社会网络时仍然十分耗时;例如从 37154个社会网络节点中选择50个最有影响用户就需要2个小时以上。因此, 如何从大规模社会网络海量用户中快速挖掘最有影响用户成为了亟待解决的问 题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210248732.3/2.html,转载请声明来源钻瓜专利网。