[发明专利]一种基于Twitter数据的社交网络组织成员识别方法有效
申请号: | 201810558816.4 | 申请日: | 2018-06-01 |
公开(公告)号: | CN108874940B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 吴浩鹏;司华友;周丽;陈志辉;孙文;郑飘飘 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/9535;G06Q50/00 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 王桂名 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 twitter 数据 社交 网络 组织 成员 识别 方法 | ||
本发明涉及一种基于Twitter数据的社交网络组织成员识别方法,其特征在于,包括以下步骤:爬取关注目标组织公共账号的用户,构成候选集合;寻找确定属于目标组织的用户构成种子集合;设定得分阈值和期望值;爬取候选集合中的每个用户的关注列表与被关注列表、所有推文并提取其中的推送关系;对于候选集合中的每一个用户,根据种子集合,计算识别因子,使用评估模型计算每个用户的得分;根据给定的得分阈值从候选集中筛选出得分大于得分阈值的用户构成结果集合;从候选集合中移除本轮产生的结果集合,并将新产生的结果集合加入种子集合中;迭代执行直到种子集合中成员的数量达到期望值。本发明涉及的方法能够挖掘目标组织中的成员,挖掘准确率高。
技术领域
本发明海量数据分析与挖掘技术领域,更具体而言涉及一种基于Twitter数据的社交网络组织成员识别方法。
背景技术
社交网络是一种基于用户关系的信息共享、信息传播以及信息获取的平台。它已经渗透到我们生活的方方面面,它突破了传统媒体的信息传播方式,用户可以自由地生产自己认为有价值的信息内容,并以短文本、图片或视频的方式与好友共享此信息。与此同时,用户也可以主动选择成为其他用户的好友或者粉丝,随时随地获取自己感兴趣的信息。随着社交网络的兴起和快速发展,网络生活变得更加丰富多彩,几乎每个网民都参与到了这种新型的网络组织结构中。和现实世界一样,虚拟的社交网络中也存在人际关系。从虚拟的社交网络中发掘用户在现实世界中的人际关系有着很高的学术和应用价值,所以社交网络用户关系挖掘已经成为了新兴的研究热点之一。
目前社交网络组织成员识别方法是:首先抓取了实验组织的若干官方账户的两层粉丝的社交网络数据,利用社交网络的拓扑结构计算用户对目标机构的兴趣度,并在该数据集上进行去噪、压缩处理后,应用基于模度值最大化算法划分出网络中的社交圈子,最后通过定义社区的R@N指标来选取相关社区,社区中的成员即为组织成员识别的结果。
上述识别方法的缺陷在于:第一,只能将社交网络成员划分为几个社群,但它不会进一步确定用户之间的特殊关系;第二,只将社交网络的用户集合根据用户顶点的结构关联度或属性相似度划分为若干用户集合,而并不能针对某个特定的组织挖掘其相关的成员;第三,这些方法存在许多不足,如迭代次数不稳定,用户属性特征选取不明确等。
发明内容
本发明的目的在于针对现有技术中存在的缺陷,提出一种基于Twitter数据的社交网络组织成员识别方法。为了达到目的,本发明提供的技术方案为:
本发明涉及的一种基于Twitter数据的社交网络组织成员识别方法,其特征在于,包括以下步骤:
(1)爬取关注组织公共账号的Twitter用户,构成候选集合U;
(2)寻找n个确定属于目标组织的Twitter用户,构成种子集合S;
(3)设定得分阀值min,设定种子集合S成员的期望值m,m>n;
(4)逐一爬取候选成员的关注列表、被关注列表、推文的推送关系及数量;
(5)统计其中与种子集合S成员相关的部分作为识别因子;
(6)通过识别因子计算所有候选成员的得分Score;
(7)提取得分Score大于得分阀值min的候选成员并纳入种子集合S中,其余候选成员保留在候选集合U中;
(8)判断种子集合S中的人数,若种子集合人数小于期望值m,则重复步骤5~7,继续进行成员识别,若种子集合人数大于期望值m,完成识别。
优选地,所述的步骤1包括以下步骤:
(1.1)提取目标组织的公共账号,爬取关注公共帐号的所有用户名单;
(1.2)爬取每位用户的具体信息,包括昵称、个人简介、关注数量、被关注数量、推文数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810558816.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置