[发明专利]基于人工免疫危险理论的微博水军检测方法及检测系统有效
申请号: | 201810950560.1 | 申请日: | 2018-08-20 |
公开(公告)号: | CN109558555B | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 杨超;张*;秦廷栋;项振辉;陈炳秋;何先先 | 申请(专利权)人: | 湖北大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/953 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 杨采良 |
地址: | 430062 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工免疫 危险 理论 水军 检测 方法 系统 | ||
1.一种基于人工免疫危险理论的微博水军检测方法,其特征在于,所述基于人工免疫危险理论的微博水军检测方法包括:
使用聚焦网络爬虫获取微博用户行为数据,利用人工免疫对微博用户行为特征进行检测;
对用户行为特征进行分析并定义网络水军行为,区分网络新型水军和正常用户的特征属性;
采用人工免疫危险理论的树突状细胞算法DCA检测微博中的网络水军用户行为;
所述基于人工免疫危险理论的微博水军检测方法具体包括:
步骤一,微博数据的获取:使用聚焦网络爬虫,对微博的用户信息爬取;
步骤二,特征的选取:在提取出用户微博中粉丝数、关注数、微博总数、原创微博数、是否认证、微博等级、有无简介、注册时间、阳光信用、互相关注数、参与话题数、评论数、转发数和点赞数14种用户行为特征后,通过多次对比实验与总结将14中原始用户行为特征融合为阳光信用、活跃度、身份评价、影响力、粉丝关注比、原创微博比6个指标;
步骤三,抗原信号定义:将阳光信用SC、活跃度AT、身份评价IE、影响力CI、粉丝关注比FF、原创微博比OM 6个指标进行规格化处理,映射函数如下:其中x是原始信号值,当x∈[m,n]时,进行线性映射,当x∈[n,∞)时,信号取最大值10;
步骤四,基于DCA算法的微博水军检测:以微博用户作为抗原,首先初始化抗原采集数目与树突状细胞种群;随机在微博用户检测样本中选择未被识别的微博用户,根据微博用户对应的病原体相关分子模式信号、危险信号、安全信号和致炎信号作为输入信号;
根据计算公式如下及其对应的权值矩阵计算得出CSM、SEM、MAT的浓度,对提呈同一抗原的DC细胞所得出的CSM、SEM、MAT浓度进行累加;
DCA算法的计算公式如下:
公式中(1+IS)为放大信号,输入信号PAMP、DS、SS对应的值和权值分别是CP、CD、CS以及WP、WD、WS,输出信号CSM,SEM和MAT对应的值分别为C[CSM],C[SEM]和C[MAT];
根据输入信号值和权值矩阵计算出CSM,SEM和MAT值,并进行累加; 若CSM大于迁移阈值,则比较SEM和MAT的大小,根据比较结果标记该DC的状态以及该DC采集的抗原状态;如果抗原判定总次数达到抗原判别阈值,则计算细胞成熟抗原值MCAV,公式为MCAV=MAT/(SEM+MAT),其中SEM和MAT为输出信号SEM、MAT的值;比较MCAV与异常阈值的大小,如果MCAV较大,则抗原标记为异常,该微博用户为水军,否则标记为正常;
所述步骤一中,爬取方法包括模拟登陆、获取用户地址链接和HTML代码解析;
(1)模拟登陆:在网址认证成功后,进行登陆;
(2)获取用户地址链接:根据新浪微博对用户认证类型的划分,有未经新浪认证的普通用户、标识为黄V或金V的个人认证用户、标识为蓝V的企业机构认证用户;不同类型认证的用户主页或二级页面有不同的URL链接模板;
(3)HTML代码解析:经过预登陆和目标URL定义后,利用Python语言中自带的urllib、urllib2库,对URL的Html进行多种解析操作,或利用Python语言的一个高级爬虫开发框架Scrapy进行Html页面信息定位;进行web页面的信息抓取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北大学,未经湖北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810950560.1/1.html,转载请声明来源钻瓜专利网。