[发明专利]基于人工免疫危险理论的微博水军检测方法及检测系统有效
申请号: | 201810950560.1 | 申请日: | 2018-08-20 |
公开(公告)号: | CN109558555B | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 杨超;张*;秦廷栋;项振辉;陈炳秋;何先先 | 申请(专利权)人: | 湖北大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/953 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 杨采良 |
地址: | 430062 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工免疫 危险 理论 水军 检测 方法 系统 | ||
本发明属于微博网络技术领域,公开了一种基于人工免疫危险理论的微博水军检测方法及检测系统,将人工免疫的思想应用于微博用户行为特征的检测中,使用聚焦网络爬虫获取微博用户数据;通过基于用户行为特征的分析方法刻画定义网络水军行为,区分网络新型水军和正常用户的特征属性;最终将人工免疫危险理论的信号处理机制应用于网络水军检测中,采用危险理论的树突状细胞算法DCA检测微博中的水军用户。本发明使用基于Python的聚焦网络爬虫的方式获取微博用户数据,并以结构化的数据存储到数据库,该方式较容易获取数据集,能够合理地采集用户的各类行为数据,具有爬取周期短、数据质量高等优点。
技术领域
本发明属于微博网络技术领域,尤其涉及一种基于人工免疫危险理论的微博水军检测方法及检测系统。
背景技术
目前,业内常用的现有技术是这样的:
微博网络水军是指一些受到利益驱动,为达到如混淆信息的真实性,引导错误的舆论导向,损害公民利益等目的,通过操纵软件机器人或水军账号,在微博中制造、传播虚假意见和垃圾信息等垃圾信息产生者的总称。微博水军检测即运用一些数据挖掘技术,定义高区分度特征或行为模式来发现潜藏的网络水军。
目前主要的水军检测方法如下:
基于内容特征的水军检测方法:包括文本分类、文本情感分析以及文本倾向性分析等方法,通过计算微博内容与垃圾信息相似度,或评论内容与垃圾评论的相似度,来识别网络水军。
基于环境特征的水军检测方法:通过获取网络环境中TCP脚印信息、IP黑名单信息、机器人网站命令追踪以及路由信息等联系起来对水军的网络级特征进行分析,实现水军追踪。
基于用户特征的水军检测方法:通过分析变化的网络用户的关系特征和行为特征,选取相关特征属性训练分类器,然后用训练好的分类器进行微博网络水军的检测。
综上所述,现有技术存在的问题是:
基于内容特征的水军检测方法,由于网络环境的复杂化和各类网络平台实名制的约束,水军由以往的系统批量操作生成,逐渐转变为一种被真实用户操作的新型水军,后者制造的垃圾信息趋向于正常用户,不再具有显著的可识别特征,因此该方法现已不能有效发现网络新型水军。
基于环境特征的水军检测方法,由于TCP脚印信息、IP黑名单信息及路由信息等网络环境特征信息无法被修改掩饰,因此该检测方法识别准确率较高,但网络环境类数据集较难获取,因此该方案可推广性较低
基于用户特征的水军检测方法,该方法能够很好地发现潜藏的网络水军,且较为适用于社交网络平台环境下的水军检测,但存在特征描述不全面、对多指标的海量数据处理效率较低、且需要大量训练数据集等问题。
解决上述技术问题的难度和意义:
(1)由于网络水军自我隐蔽意识的增强,单纯的基于内容特征的水军检测会漏掉大多以正常文本特征作为假象传播的新型网络水军,实用性较低。本发明从微博用户的注册、发布微博、转发、评论、点赞等使用过程中挖掘出微博水军特定的行为模式,对水军行为特征进行深入分析,挖掘出能区分水军和非水军的重要属性,这些属性对微博水军特征刻画有重要作用。
(2)传统的基于环境特征的水军检测方法在数据获取方面存在很大的困难,可推广性较低。本发明选取聚焦网络爬虫策略,通过模拟登陆获取新浪微博的通行证登陆方式,并制订URL搜索策略,获取指定链接下的Html进行保存,最后对Html进行解析,将其转化为结构化数据存储到数据库中。本发明中的数据获取策略爬取效率高,并能根据需求设计爬取指定页面的具体内容,可推广性高,为实现水军检测提供了良好的数据支撑。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北大学,未经湖北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810950560.1/2.html,转载请声明来源钻瓜专利网。