[发明专利]一种社交网络僵尸账号检测方法及装置有效
申请号: | 201510278739.3 | 申请日: | 2015-05-27 |
公开(公告)号: | CN104901847B | 公开(公告)日: | 2018-10-30 |
发明(设计)人: | 刘玮;王丽宏;张同虎 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L29/06;G06F17/30 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 罗丹 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 社交 网络 僵尸 账号 检测 方法 装置 | ||
本发明提出了一种社交网络僵尸账号检测方法及装置,采用层次化启发式方法进行僵尸账号检测,利用账号资料特征、微博内容特征、发帖时间特征、发帖行为一致性特征,按照计算时间代价逐步判别,一旦判别成功就停止计算,否则就继续下一层次特征的计算,考虑到大部分僵尸账号的生成和维护依靠自动化程序进行,成本低,可以通过较低代价的判别方法检测,所以本发明的所述方法可以大幅提高检出效率,另一方面,本方法使用了账号资料、微博内容和行为特征等多维度特征,能够提高僵尸账号的检出率和准确率。
技术领域
本发明涉及互联网社交技术领域,尤其涉及一种社交网络僵尸账号检测方法及装置。
背景技术
社交网络以其内容简洁、交互便捷和快速传播等特点,迅速发展成为人们表达观点、抒发情绪、传递信息的重要社会媒体。以新浪微博、Twitter、Facebook为代表的社交网络在大量社会事件的发酵和爆发过程中都起到了重要的推动作用,所以社交网络是当前舆情分析必不可少的数据来源之一。社交网络作为舆情传播平台的同时也是网络营销的重要手段,其中蕴藏着巨大的经济价值,于是僵尸账号应运而生,僵尸账号是指申请了帐号但是基本不登录的帐号或者利用使用构造虚假内容的方式达到传播某一特定内容的目的。前者通过低廉的注册成本自动注册大量账号,用户可以通过购买的方式短期内增加大量粉丝量,一定程度上扩大自己的影响力。后者通过僵尸账号发布大量内容重复或含有特定营销目标的链接以达到提高曝光率的目的,增加被点击概率。随着社交网络平台对僵尸账号检测力度的加大,僵尸账号运营方也使用了多种逃避检测的方法,以提高僵尸账号的存活时间。例如通过增加发帖数和登录次数逃避基于活跃度的检测,通过掺杂无关文本内容降低营销关键词频率逃避基于重复率的检测等。如何高效、准确地检测出僵尸账号对提高社交网络数据分析具有重要意义。
现有方法多基于关注图模型或交互图模型,根据交互性特征对僵尸账号进行检测,其检出率、检出效率和准确率较低。
发明内容
本发明要解决的技术问题是,提供一种社交网络僵尸账号检测方法及装置,提高检测僵尸账户的检出率和准确率。
本发明采用的技术方案是,所述社交网络僵尸账号检测方法,包括:
从僵尸账号样本集和正常账号样本集中分别提取出层次化特征,基于提取出的所述层次化特征分层次的建立各层分类器;
基于各层分类器对待预测账号进行检测,判断所述待预测账号是否属于僵尸账号。
进一步的,所述层次化特征,包括以下四个层次的特征:
第一层的特征:账号资料特征;
其余层的特征分别是:微博内容特征、发帖时间特征、发帖行为一致性特征。
进一步的,所述账号资料特征,包括:
用户昵称中字符与数字的长度之和占用用户昵称总长度的比例;
是否填写了家庭住址;
账号发帖数;
账号粉丝数;
账号关注数;
账号关注数与粉丝数的比例;
所述微博内容特征,包括:
账号所发微博中含有URL(Uniform Resoure Locator,统一资源定位器)的微博的比例;
账号所发微博中所含URL去重后的数量与账号所发微博中所有URL数量的比值;
账号所发微博中所含内容关键词去重后的数量与账号所发微博中所有关键词数量的比值;
所述发帖时间特征,包括:
最后一次发帖与第一次发帖的时间跨度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510278739.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种AXI/PCIE总线转换装置
- 下一篇:企业网络安全事件管理系统及其方法