[发明专利]一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法有效

专利信息
申请号: 201610383009.4 申请日: 2016-06-01
公开(公告)号: CN105956184B 公开(公告)日: 2017-05-31
发明(设计)人: 周亚东;党琪;高峰;管晓宏 申请(专利权)人: 西安交通大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 西安智大知识产权代理事务所61215 代理人: 段俊涛
地址: 710049*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 社会 网络 协作 组织 垃圾 信息 发布 团体 识别 方法
【权利要求书】:

1.一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法,其特征在于,包括:

步骤1,在多个热点话题中发现有垃圾信息发布团体参与的异常话题,具体步骤如下:

步骤1.1,构建热点话题的动态转发网络,热点话题Ti在时间t的转发网络表示为有向图Gt=(Vt,Et),其中Vt和Et分别是节点集合和边集合,Vt中的任意一个节点表示用户ui在起始时间到时间t之间发表了话题Ti相关的微博,Et中任意一条边(ug,uk,wug,uk)表示用户uk转发了用户ug关于话题Ti的微博,wug,uk为边的权重,表示用户uk和ug之间转发微博的次数;由于热点话题随着时间在不断的动态变化,热点话题Ti的动态转发网络表示为Gt(Ti)={G1,G2,…,Gt};

步骤1.2,对每个热点话题Ti的转发网络,计算相邻时间段的转发网络的相似度:话题在时间t的转发网络Gt表示为j个弱连通子图Gt={g1t,g2t,…,gjt},其中gjt表示第j个弱连通子图;计算相邻时间段转发网络的相似度指计算Gt-1=(Vt-1,Et-1)和Gt=(Vt,Et)之间的相似度simt,首先对两个网络的弱连通子图按照节点个数进行排序,分别得到两个网络的弱连通子图序列,两个子图的相似度由对应子图序列之间的斯皮尔曼相关系数来表示;

步骤1.3,根据各个转发网络的相似度序列,识别异常话题:通过话题Ti的动态转发网络Gt(Ti)={G1,G2,…,Gt}得到相邻网络的相似度序列{sim1,sim2,…,simt-1},若该序列中存在某个相似度小于相似度阈值0.6,则该话题为异常话题;

步骤2,在参与异常话题的所有用户中,识别垃圾信息发布团体用户,具体步骤如下:

步骤2.1,在话题转发网络中定义用户权重:根据话题转发网络的定义,出度大的节点对于话题传播和信息扩散具有更多的影响力,在单个话题转发网络中的用户权重由该用户在转发网络中的出度来定义,再利用归一化和对数函数进行变形来便于计算;由于多次参与异常话题的用户以及参与多个异常话题的用户具有更大的可能是垃圾信息发布团体的成员,因此对单个转发网络中的用户权重进行加权求和来得到该用户的累计用户权重;

具体地,用户ui在单个话题转发网络Gh中的权重定义为:

<mrow><msubsup><mi>w</mi><msub><mi>u</mi><mi>i</mi></msub><msub><mi>G</mi><mi>h</mi></msub></msubsup><mo>=</mo><mi>l</mi><mi>o</mi><mi>g</mi><mfrac><mrow><msubsup><mi>d</mi><mi>o</mi><msub><mi>G</mi><mi>h</mi></msub></msubsup><mrow><mo>(</mo><msub><mi>u</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>+</mo><mn>1</mn></mrow><mrow><mo>|</mo><msup><mi>E</mi><msub><mi>G</mi><mi>h</mi></msub></msup><mo>|</mo></mrow></mfrac><mo>+</mo><mi>Z</mi></mrow>

其中doGh(ui)表示用户的出度;|EGh|表转发网络中总的边数,相当于所有节点的出度和;Z是一个正整数,用来保证用户权重大于零,

用户ui在H个话题转发网络{G1,G2,…,GH}中的累计权重定义为:

<mrow><msub><mi>w</mi><msub><mi>u</mi><mi>i</mi></msub></msub><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>h</mi><mo>=</mo><mn>1</mn></mrow><mi>H</mi></munderover><msubsup><mi>w</mi><msub><mi>u</mi><mi>i</mi></msub><msub><mi>G</mi><mi>h</mi></msub></msubsup><msub><mi>F</mi><mrow><mo>(</mo><msub><mi>u</mi><mi>i</mi></msub><mo>,</mo><msub><mi>G</mi><mi>h</mi></msub><mo>)</mo></mrow></msub><msup><mi>e</mi><mfrac><msub><mi>h</mi><msub><mi>u</mi><mi>i</mi></msub></msub><mi>H</mi></mfrac></msup></mrow>

其中F(ui,Gh)表示用户ui在转发网络Gh中发表微博的次数,hui表示用户ui在H个话题中出现的次数;

步骤2.2,在参与所有热点话题的用户中人工标注多个初始标签用户Ulabel={u1,u2,…,uq}:为了使标签用户尽可能地少参与相同话题并且每个标签用户参与尽可能多的话题,初始标签用户的选择遵循以下策略:迭代地根据话题参与的频率来选择标签用户,在每次迭代中选择一个标签用户,从话题集合中移除上个标签用户参与的话题,重复之前的迭代直到话题集合中的大部分话题都被移除;

其中,初始标签用户的选择策略,是通过迭代使得初始标签用户能够尽可能多地覆盖步骤1中所得到异常话题,初始的输入为步骤1中所发现的异常话题序列和参加话题的所有用户,每次迭代过程为:计算话题序列中所有用户参加异常话题的频率,在这些用户中选择频率最高的用户作为初始标记用户,然后从话题序列中删除该用户参与的异常话题,在初始异常话题序列中迭代以上过程,直到话题序列中的大多数话题被删除,迭代终止;

步骤2.3,对于初始标签用户集中的每个用户uq,首先获得该用户参与的热点话题序列T(uq)={T1,T2,…,Tuq},对于参与该话题序列的所有用户U(uq)的权重进行加权求和获得每个用户的累计用户权重W(uq),然后基于k-means算法对累计用户权重列表进行聚类获得与初始标签用户属于同一组织的垃圾信息发布团体。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610383009.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top