[发明专利]一种面向微博的特定倾向的高影响力用户群发现方法有效

申请号：	201210558984.6	申请日：	2012-12-20
公开（公告）号：	CN103064917A	公开（公告）日：	2013-04-24
发明（设计）人：	刘斯尧;赵中英;冯圣中	申请（专利权）人：	中国科学院深圳先进技术研究院
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	深圳市科进知识产权代理事务所(普通合伙) 44316	代理人：	宋鹰武
地址：	518055 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向特定倾向影响力用户群发方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及社会化媒体数据分析与挖掘技术领域，特别是涉及一种面向微博的特定倾向的高影响力用户群发现方法。

背景技术

微博，已经成为人们进行社交的一种重要平台与媒介之一，中国有超过4亿的微博用户，而Twitter用户更是超过5亿，信息日发送量则超过2亿，成为仅次于Facebook的第二大社交网站。近年来，微博成为无数热门话题与潮流的发源地。借助一个有效的传播模型来找到高影响力用户群，对企业来说，可以以最小的成本来获取最大的广告传播范围；而对政府来说，则可以有效的对微博中的部分信息的传播进行一定的控制。因此，研究微博中的信息传播或影响力传播，是一个具有广阔的应用前景的研究课题，引起学术界和产业界的广泛关注。

现阶段对于用户影响力的研究主要分为两个不同的方向。一种是基于病毒式营销的思想，认为每个用户都能对其相邻用户（在微博中则为“关注”的关系）施加一定的影响。基于本思想，David Kempe等学者提出两种基础的传播模型Independent Cascade（IC）模型与Linear Threshold（LT）模型，IC模型认为每个用户间具有一个相同的且为常数的传播概率p，即当t-1时刻时，用户传播（转发和评论）了信息（微博），则在t时刻，其邻点用户传播该信息的概率为p。而LT模型则认为相邻用户间具有不同的影响力，而每个用户需要其邻点施加一定的影响力（超过阀值）后才会传播信息，即对某一特定的信息而言，当t-1时刻，某用户的传播了该信息的邻点用户对于该用户的影响力超过了其自身的阀值，则在t时刻，该用户一定会传播该信息。借助相关算法（如贪婪算法或启发式算法），则可以找到使影响力最大的n个用户。

另一种则是单纯分析用户的影响力，通常基于PageRank思想并进行一定的改良，基本思想是如果某用户能影响（连接）到影响力较大的用户，那该用户的影响力也较大。该方法能很好地在MapReduce模型上高效实现，在较短的时间内即可计算出所有用户的影响力。但与前一种方法不同的是，由于影响力最大的数个用户间可能存在大部分的影响范围重叠，因此，该方法无法解决影响力最大化问题，而只能根据计算出的影响力对用户进行排序。

从微博的运作方式上来看，IC模型能够较好的模拟真实的传播过程。用户每一次对微博的传播在网络拓扑结构中都可以表现为一种对其自身周围所有邻点的广播，而这每一次广播都有可能（一定概率）对邻点进行影响，即邻点可以选择传播该微博或者是忽略。但其不足的地方在于，传统的IC模型认为所有用户之间的传播概率均为一恒定的常数，这一假设过于简单并与现实大相径庭。现实中，不同的用户具有不同的喜好，他们对于微博的转发或者评论多数出于他们对于该微博内容的关注，因此，不同的用户之间对于不同内容的微博将具有不同的传播概率。基于对真实微博数据的观测，我们发现，一条微博的传播范围与其中参与的活跃用户有一定关系，也就是说，通过活跃用户传播的信息更容易被其相邻用户所传播。显然，传统的传播模型无法模拟真实网络中的信息传播方式。

综上所述，当前对复杂微博网络中的高影响力用户群发现的研究，仅仅考虑了网络的拓扑结构，并没有分析影响力与微博内容或主题之间的关系，因此，相关现有技术不能准确反映真实数据中的传播模式，导致该方法具有很大的局限性，不能投入应用。因此，现有技术存在一定的缺陷，而有待于改进和发展。

发明内容

本发明提供了一种面向微博的特定倾向的高影响力用户群发现方法，旨在解决现有的高影响力用户群发现方法忽略了影响力与微博内容或主题之间的关系，不能反映真实情况这一技术问题。本发明采用如下技术方案：

一种面向微博的特定倾向的高影响力用户群发现方法，包括：

S1、对微博网站上的数据进行抓取；

S2、对获取的数据进行分析，找出每条微博所对应的不同主题；

S3、建立新的微博网络拓扑结构；

S4、分析用户的特定倾向与活跃程度，计算出用户间的传播概率；

S5、根据得到的传播概率，找出面向特定主题的具有最大影响力的用户群。

优选地，在所述步骤S1中，抓取的数据包括：用户ID、用户名、微博内容、微博序号和参与转发与评论的用户ID；其中所述微博序号为根据获取该微博的时间给予该微博的序号，不同的微博对应不同的序号。

优选地，所述步骤S1具体为：

抓取一设定时间段内的数据，并忽略其中参与人数较少的数据，保留参与人数较多的数据。