[发明专利]基于用户的关注关系的垃圾用户发现方法有效

专利信息
申请号: 201310268949.5 申请日: 2013-06-28
公开(公告)号: CN103294833A 公开(公告)日: 2013-09-11
发明(设计)人: 丁兆云;贾焰;杨树强;周斌;韩伟红;李爱平;韩毅;李莎莎 申请(专利权)人: 中国人民解放军国防科学技术大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京泛华伟业知识产权代理有限公司 11280 代理人: 王勇
地址: 410073 湖南省长沙*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 用户 关注 关系 垃圾 发现 方法
【说明书】:

技术领域

发明涉及web挖掘领域,尤其涉及基于用户的关注关系的垃圾用户或垃圾账户发现方法。

背景技术

类Twitter的微博服务最近作为一个新的通信媒介得到迅速发展,据第29次中国互联网报告统计:截至2011年12月底,我国微博实际用户数达到2.5亿,较上一年底增长了296.0%,网民使用率为48.7%。区别于其他类Facebook的社交网络服务,微博服务的社会网络关系为单向的,用户不需要其他用户对其赋予权限就可以“关注”他们。例如,Twitter中社会网络由关注关系形成,用户关注的人称为该用户的好友或关注好友;关注某用户的人称为该用户的粉丝,用户发布的所有博文将出现在公共时间线上,该用户所有粉丝的时间线上将显示该用户的所有消息。

随着微博服务的普及,存在大量以刺探隐私情报、商业推销、推高用户人气等为目的的人工垃圾用户。这些大量的垃圾用户使得微博服务提供商的账户资源受到了冲击,加大了管理账户的难度,提高了账户资源开发和管理成本。例如,大量的垃圾用户使得微博服务提供商不得不花费更多的硬件资源或人力成本来进行账户管理。同时,这些垃圾用户的大量存在也对正常用户的使用带来了干扰。因此,一直以来,人们期望能够发现微博中的垃圾用户以便对其进行合适的处理。

传统的微博中垃圾用户发现方法主要基于用户的显式统计特征来进行判断,比如发帖规律、关注的好友数量与其粉丝数量比例、博文中提及(@userScreenName)其他用户比例等。这些方法例如:

在参考文献1“Chu Z,Gianvecchio S,Wang H,et al.Who is tweeting on Twitter:human,bot,or cyborg?[C].Proc of the26th Annual Computer Security Applications Conference.ACM,2010:21-30.”中依靠Twitter中用户发布博文的显式统计特性区分垃圾机器人、类人机器人和正常用户,利用发帖规律、关注的好友数量与其粉丝数量比例、博文中提及(@userScreenName)其他用户比例等识别垃圾用户。

在参考文献2“McCord M,Chuah M.Spam Detection on Twitter Using Traditional Classifiers[C].Proc of the8th International Conference on Autonomic and Trusted Computing.NJ:IEEE,2011:175-186.”中,利用用户特征与博文特征设计分类器区分正常用户与垃圾用户,分类器采用贝叶斯分类方法。

在参考文献3“Stringhini G,Kruegel C,Vigna G.Detecting spammers on social networks[C].Proc of the26th Annual Computer Security Applications Conference.ACM,2010:1-9.”中分析了垃圾用户的发帖行为,依靠显式统计特性识别垃圾用户和大规模垃圾用户整体活动。

在参考文献4“Thomas,K,Grier,C,Paxson,V,et al.Suspended Accounts in Retrospect:An Analysis of Twitter Spam[C].Proc of the2011ACM SIGCOMM conference on Internet measurement conference.New York:ACM,2011:243-258.”中利用Twitter中暂停的账号分析垃圾用户特性。

本文将使用上述传统方法基于用户的显式统计特征所发现的垃圾用户称为显式垃圾用户。上述传统方法确实能够在一定程度上发现垃圾用户,但是由于其算法较为粗糙(例如,仅考虑一些显式统计特征),因此并不能提供概率上的高可靠性,例如,其可能遗漏大量垃圾用户,或者,其可能将大量正常用户误判为垃圾用户。特别是,随着上述这些传统垃圾用户发现方法的使用,一些恶意制造垃圾用户的人也相应地采取了对策,使得垃圾用户在显式统计特征方面更加类似于正常用户,例如,使得垃圾用户同样具有大量好友和粉丝,这导致了垃圾用户特征的更加复杂化,也更加难于准确地区分垃圾用户和正常用户。在本文中可以将此类在显式统计特征方面比较类似于正常用户的垃圾用户称为隐式垃圾用户。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310268949.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top