[发明专利]一种识别微博异常用户的方法和系统有效
申请号: | 201310076056.0 | 申请日: | 2013-03-11 |
公开(公告)号: | CN103150374B | 公开(公告)日: | 2017-02-08 |
发明(设计)人: | 王鹏;张鹏;刘铁男;孙亮 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京轻创知识产权代理有限公司11212 | 代理人: | 杨立 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种识别微博异常用户的方法,包括获取多个用户微博数据存储入数据库中;根据用户微博数据,以用户行为的时间间隔的统计分布做为用户的行为时间特征,并生成行为时间特征向量和界定参数;计算正常用户行为时间特征向量与待测用户行为时间特征间的Kullback‑Leibler距离,将计算出的Kullback‑Leibler距离超出界定参数的待测用户判定为异常用户;对异常用户的内容进行关键词抽取和展示。对应该方法,本发明还提供了一种识别微博异常用户的系统。本发明可以快速提取出异常用户的博文内容关键词,可以准确识别营销,广告等垃圾信息发布者,适用于多个微博服务平台检测,且具有准确性高,效率高,适用性广的优点。 | ||
搜索关键词: | 一种 识别 异常 用户 方法 系统 | ||
【主权项】:
一种识别微博异常用户的方法,其特征在于,包括:步骤1,获取多个用户微博数据,并将用户微博数据存储入数据库中;步骤2,根据从数据库中获取的用户微博数据,以用户行为的时间间隔的统计分布做为用户的行为时间特征,并根据行为时间特征生成行为时间特征向量和界定参数;所述步骤2具体包括:步骤21,根据从数据库中获取的用户微博数据,以用户行为的时间间隔的统计分布做为用户的行为时间特征;步骤22,采用聚类算法将所有的认证用户的行为时间特征聚成一类,取其聚类中心为正常用户行为时间特征向量;步骤23,手动标注出异常用户,并爬取异常用户的微博数据,再根据获得的微博数据计算异常用户的行为时间特征向量;步骤24,采用聚类算法将异常用户的行为时间特征向量聚成一类,取其聚类中心作为异常用户行为时间特征向量;步骤25,计算异常用户行为时间特征向量与正常用户行为特征向量的聚类中心值的Kullback‑Leibler距离,再根据计算结果通过最小二乘方误差法确定正常用户的特征空间范围,并根据特征空间范围确定界定参数;步骤3,计算正常用户行为时间特征向量与待测用户行为时间特征向量的Kullback‑Leibler距离,若计算出的Kullback‑Leibler距离超出界定参数,则判定待测用户为异常用户,否则为正常用户;步骤4,对已判定的异常用户的微博内容进行关键词抽取,并将抽取的关键词以用户标签的形式进行展示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310076056.0/,转载请声明来源钻瓜专利网。