[发明专利]基于萤火虫和加权极限学习机的微博异常用户检测方法有效
申请号: | 201811573286.7 | 申请日: | 2018-12-21 |
公开(公告)号: | CN109657147B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 张志洁 | 申请(专利权)人: | 岭南师范学院 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06N20/00;G06N3/00 |
代理公司: | 广州市南锋专利事务所有限公司 44228 | 代理人: | 李慧;王允辉 |
地址: | 524000 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 萤火虫 加权 极限 学习机 异常 用户 检测 方法 | ||
本发明公开了一种基于萤火虫和加权极限学习机的微博异常用户检测方法,基于萤火虫和加权极限学习机的微博异常用户检测方法,具体步骤如下:将采集到的微博用户数据分为训练集和测试集;利用萤火虫算法创建加权极限学习机;优化加权极限学习机;检测或预测微博异常用户:将测试集中的微博用户特征,即微博内容、用户信息和用户上下文,作为优化的加权极限学习机的输入数据样本,优化的加权极限学习机的输出值为该用户是否为微博异常用户。该方法不仅检测的精度高,而且智能化程度高,一般不需要人工介入,工作效率高。
技术领域
本发明涉及一种社交网络的监控方法,具体是一种微博异常用户检测方法。
背景技术
近年来,随着互联网的快速发展和智能终端的日益普及,在线社交网络已成为人们获取信息、传播信息和娱乐的重要渠道。由于在线社交网络结构的复杂性,群体的大规模性,信息生成的快速性,用户采纳、创建的内容对社会稳定以及人们的日常工作和生活影响深远。以微博为例,检测微博异常用户可以有利于分析、指导和监控社交网络事件,规范社交网络管理,保证社交网络安全运行和传播健康信息。目前,现有的微博异常用户检测方法主要包括以下两个方面的内容:(1)首先,对微博中发布的信息内容特征和用户特征进行分析和筛选,比如:发布信息的次数、转发信息的次数、发布信息的URLs、发布信息用户的网龄、用户每天创建新信息的次数等;(2)其次,采用机器学习算法对微博异常用户进行检测,具体做法是:将(1)中的筛选出的信息内容特征和用户特征作为机器学习算法的输入,是否为异常用户作为机器学习算法的输出。常用于检测异常用户的机器学习算法有:支持向量机,朴素贝叶斯,决策树,ELM等。目前,用于微博异常用户检的测技术存在以下有待解决的问题:(1)对微博异常用户的特征分析和筛选工作主要是针对信息内容特征和用户特征进行开展,尚未考虑到用户的上下文特征和信息;(2)微博中异常用户占微博总用户的百分之六左右,因此形成微博数据集的不平衡问题,即类别间存在数量级的差别。现有用于检测异常用户的机器学习算法的目标都是确定主导类别的数量,倾向于被大类主导而忽略小类,这将导致对不平衡数据集的分类结果不理想现象。
还有的用于微博异常用户检的测技术,需要人工介入,故工作效率不高,比如,国家知识产权局于2017年2月8日公开了公开号为CN103150374B的专利文献,一种识别微博异常用户的方法,其特征在于,包括:步骤1,获取多个用户微博数据,并将用户微博数据存储入数据库中;步骤2,根据从数据库中获取的用户微博数据,以用户行为的时间间隔的统计分布做为用户的行为时间特征,并根据行为时间特征生成行为时间特征向量和界定参数;所述步骤2具体包括:步骤21,根据从数据库中获取的用户微博数据,以用户行为的时间间隔的统计分布做为用户的行为时间特征;步骤22,采用聚类算法将所有的认证用户的行为时间特征聚成一类,取其聚类中心为正常用户行为时间特征向量;步骤23,手动标注出异常用户,并爬取异常用户的微博数据,再根据获得的微博数据计算异常用户的行为时间特征向量;步骤24,采用聚类算法将异常用户的行为时间特征向量聚成一类,取其聚类中心作为异常用户行为时间特征向量;步骤25,计算异常用户行为时间特征向量与正常用户行为特征向量的聚类中心值的Kullback-Leibler距离,再根据计算结果通过最小二乘方误差法确定正常用户的特征空间范围,并根据特征空间范围确定界定参数;步骤3,计算正常用户行为时间特征向量与待测用户行为时间特征向量的Kullback-Leibler距离,若计算出的Kullback-Leibler距离超出界定参数,则判定待测用户为异常用户,否则为正常用户;步骤4,对已判定的异常用户的微博内容进行关键词抽取,并将抽取的关键词以用户标签的形式进行展示。
发明内容
本发明的目的是克服现有技术中的不足,提供一种基于萤火虫和加权极限学习机的微博异常用户检测方法,该方法不仅检测的精度高,而且智能化程度高,一般不需要人工介入,工作效率高。
为实现上述目的,本发明所采用的技术方案是:
基于萤火虫和加权极限学习机的微博异常用户检测方法,具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于岭南师范学院,未经岭南师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811573286.7/2.html,转载请声明来源钻瓜专利网。