[发明专利]一种基于Twitter数据的社交网络组织成员识别方法有效
申请号: | 201810558816.4 | 申请日: | 2018-06-01 |
公开(公告)号: | CN108874940B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 吴浩鹏;司华友;周丽;陈志辉;孙文;郑飘飘 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/9535;G06Q50/00 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 王桂名 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 twitter 数据 社交 网络 组织 成员 识别 方法 | ||
1.一种基于Twitter数据的社交网络组织成员识别方法,其特征在于,包括以下步骤:
(1)爬取关注组织公共账号的Twitter用户,构成候选集合U;
(2)寻找n个确定属于目标组织的Twitter用户,构成种子集合S;
(3)设定得分阀值min,设定种子集合S成员的期望值m,m>n;
(4)逐一爬取候选成员的关注列表、被关注列表、推文的推送关系及数量;
(5)统计其中与种子集合S成员相关的部分作为识别因子,具体包括以下步骤:
(5.1)统计候选成员的关注列表中属于种子集合S中的成员的用户数量Gas,统计候选成员的被关注列表中属于种子集合S中的成员的用户数量Gsa,
Gas=|{x|F(a,x)∩x,x∈S}|,
Gsa=|{x|F(x,a)∩x,x∈S}|;
(5.2)统计候选成员推送推文的对象且属于种子集合S中成员的用户数量Tas,统计给候选成员推送推文的且属于种子集合S中成员的用户数量Tsa,
Tas=|{x|T(a,x)∩x,x∈S}|,
Tsa=|{x|T(x,a)∩x,x∈S}|;
(5.3)统计候选成员给种子集合S中的用户推送的推文数量Nas,统计种子集合S中的用户给候选成员推送的推文数量Nsa,
Nas=∑xeSN(a,x),
Nsa=∑xeSN(x,a);
(6)通过识别因子计算所有候选成员的得分Score,其计算公式为:
Score=aNsa+bNas+cTsa+dTas+eGas+fGsa,且a+b+c+d+e+f=1;
(7)提取得分Score大于得分阀值min的候选成员并纳入种子集合S中,其余候选成员保留在候选集合U中;
(8)判断种子集合S中的人数,若种子集合人数小于期望值m,则重复步骤5~7,继续进行成员识别,若种子集合人数大于期望值m,完成识别。
2.根据权利要求1所述的基于Twitter数据的社交网络组织成员识别方法,其特征在于,所述的步骤1包括以下步骤:
(1.1)提取目标组织的公共账号,爬取关注公共帐号的所有用户名单;
(1.2)爬取每位用户的具体信息,包括昵称、个人简介、关注数量、被关注数量、推文数量;
(1.3)根据每位用户的具体信息过滤用户集,移除非候选成员账号。
3.根据权利要求1所述的基于Twitter数据的社交网络组织成员识别方法,其特征在于,所述的步骤4包括以下步骤:
(4.1)逐一爬取每个候选成员的关注列表和被关注列表,候选成员关注的用户集合即为Fa,关注候选成员的用户集合即为Feda,F(a,x)表示候选成员关注的用户x,F(x,a)表示用户x关注候选成员,通过公式
Fa={x|F(a,x)}
Feda={x|F(x,a)}
计算并统计每位候选成员关注和被关注的用户;
(4.2)逐一爬取每个候选成员的推文及推送关系,被候选成员推送过推文的用户集合表示为Ta,给候选成员推送过推文的用户集合表示为Teda,T(a,x)表示Twitter上的候选成员向用户x推送过推文,T(x,a)表示Twitter上的用户x向候选用户推送过推文,通过公式
Ta={x|T(a,x)}
Teda={x|T(x,a)}
计算并统计每位候选成员的推送关系;
(4.3)逐一计算候选成员推文的推送数量,用M(a,x)表示某候选成员向其他用户x推送的推文数量,用M(x,a)表示其他用户x给候选用户推送的推文数量,Na表示候选用户推送推文的总数量,Neda表示候选用户被动推送的推文总数量,通过公式
Na=∑M(a,x)
Neda=∑M(x,a)
计算候选用户的推文的推送数量。
4.根据权利要求1所述的基于Twitter数据的社交网络组织成员识别方法,其特征在于:所述的a=0.01,b=0,c=0.4,d=0.09,e=0.1,f=0.4。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810558816.4/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置