[发明专利]一种面向微博的疑似水军发现方法在审
申请号: | 201710212983.9 | 申请日: | 2017-04-01 |
公开(公告)号: | CN106940732A | 公开(公告)日: | 2017-07-11 |
发明(设计)人: | 刘春阳;乔杨;赵志云;李雄;张华平;张旭;庞琳;王萌;商建云;王卿 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙)11639 | 代理人: | 鲍文娟 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 疑似 水军 发现 方法 | ||
技术领域
本方法涉及一种面向微博的疑似水军发现方法,属于社交网络分析及数据挖掘技术领域。
背景技术
在过去的若干年中,社交网络已经成为了人们在互联网中与亲戚朋友保持联系的主要方式之一。有统计显示,人们在社交网站中花费的平均时间要远远多于其他网站。大部分的社交网站都提供了通过移动设备进行访问的服务,这也使得社交网站的访问更加频繁。
社交网络的快速流行与广泛使用使得这些网站可以收集到产生的大量的有关用户、用户的朋友和用户的兴趣的信息。不幸的是,便捷的信息传播方式与大量的有价值的数据也吸引了许多非法团体或个人的注意,社交网络被他们看作是一条获得高额利润或是实现不法目的便捷途径。目前,一些社交网站存在大量谣言或虚假消息。特别是,现阶段的社交媒体中,人们受到了水军账号的极大影响,如水军发布的大量“灌水”信息,水军机器人发布海量垃圾邮件,以最大程度地传播垃圾信息等,严重影响了上网体验。
传统网络水军行为,其出现时间较早、数量规模相对较小、行为没有高度隐蔽性,产生的垃圾信息具有明显特征。因此,对其识别方法主要为基于垃圾信息内容分析,如邮件内容分析。同时,通过大量识别建立黑名单和白名单分别用来记录可疑用户信息和正常用户信息,以此提高水军行为识别效率及准确率。此外,邮件领域网络水军行为产生垃圾邮件所需资源类似,通过其使用资源及其网络层级特征能够很好地定位邮件水军。随着网络环境的复杂化和水军危害的增加,用户对其防范的能力也不断增强。为达到其目的,网络水军行为逐渐复杂化并趋向于正常用户,传统邮件水军行为的识别方法无法发现这些隐蔽的网络水军账号。
Web 2.0是一种新兴的互联网方式,通过网络应用,促进网络中人与人之间的信息交换和协同合作,其模式以用户为中心。当前,Web 2.0网络水军识别研究按照目标领域的不同,可以分为邮件领域、电子商务领域、社交网络领域和论坛领域网络水军识别研究。网络水军识别研究按照研究方法的不同,可以分为基于用户产生内容特征、基于用户相关特征、基于环境特征的识别方法。
Web 2.0网络水军识别研究,是传统网络水军识别基础上的适应性识别研究。目前,国内外网络水军识别研究取得了较前几年更大的进展,但是仍然存在很多重要问题亟待解决。国外网络水军识别研究最初集中于邮件领域,并在近几年内迅速扩展到社交网络和电子商务领域中。国内网络水军识别研究相比之下较为缺乏。现阶段主要有基于内容特征、用户特征、环境特征以及综合特征的网络水军识别方法。例如:2010年Ratkiewicz等人设计了“Truthy”系统,在线搜集、分析并可视化那些热门话题tweet的传播,并利用如话题标签‘#’、短链、表情等采集自tweet的特征来识别Twitter上的政治性的信息滥用行为。2011年,Qazvinian等人尝试在Twitter上检测谣言。他们将问题分解为两步有监督机器学习任务:首先检索出涉及谣言的微博,然后在此基础上分类从中识别出支持谣言的微博。分类中用到了文本内容、用户历史和微博特定模因这三类特征对数似然率的线性组合,实验结果显示文本特征(词频、词性)仍是最重要的,同时后两个特征也明显提升了分类性能。
但是在实际问题的处理过程中,由使用过多的特征进行监督学习固然可以保障识别率,但高维度的特征集合以及个别特征的提取难度过大也会相应的导致系统的性能无法满足实际应用的要求,同时由于数据的稀疏性,很多时候,我们不可能总是获取全量数据(粉丝关系、关注关系、转发信息等),在这种情况下,因为数据的不全面性,我们需要尽可能的简化特征集合并使用易于提取的特征、引进更为巧妙的识别模型来保证特征提取与识别预测的效率。
发明内容
本发明的目的是为解决解决了用户关系链接数据稀疏情况下无法准确进行群体发现的问题,提出一种面向微博的疑似水军发现方法。
本发明的思想是考虑到海量数据中最容易获得且较为全面的信息即是社交用户所发表的文本数据信息,提出一种基于文本数据的群体发现及扩充方法,主要针对用户的文本数据进行自然语言处理并最终提取出该用户的特征信息,并根据特征信息进行建模,最后通过比较各个用户之间的相似性进行聚类分析,最终得到群体社团,并提炼出该群体的主要标志进行群体扩充。
本发明的目的是通过以下技术方案实现的:
一种面向微博的疑似水军发现方法,包括以下步骤:
步骤一、采集相关微博数据,获取如下信息:微博用户所发的文本信息、用户所做的评论的文本信息、用户在微博上所进行的互动信息,包括评论操作、转发关系、点赞操作;用户的基本属性包括粉丝数、关注数,关注关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710212983.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型备胎升降装置
- 下一篇:一种移动机器人驱动轮支撑机构