[发明专利]一种基于博文相似性的社交机器人检测系统及方法在审
申请号: | 201811284749.8 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109472027A | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 伍淳华;郑康锋;武斌;王雅晗 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35;G06Q50/00 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 祗志洁 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器人 机器学习算法 检测 元数据特征 检测系统 社交网络 账号数据 模型训练模块 特征提取模块 离线数据库 多维特征 机器学习 检测结果 检测模块 建立模型 离线数据 模型训练 内容提取 社交账号 收集模块 输出模块 特征提取 信息数据 账号使用 英语 语言 | ||
本发明提出一种基于博文相似性的社交机器人检测系统及方法,属于机器学习和社交网络技术领域。包括:离线数据库、特征提取模块、社交机器人检测模型训练模块、社交账号信息数据收集模块、社交机器人检测模块和检测结果输出模块。对离线数据集中账号使用语言是英语的每条账号数据进行元数据特征提取;对经过处理后的每条账号数据,账号的博文数量大于K条的对博文内容进行特征提取;将前述获取的元数据特征和博文内容提取的特征采用不同机器学习算法进行模型训练,选出最优检测模型作为最终的社交机器人检测模型。本发明通过提取包括博文相似性在内的多维特征,采用机器学习算法建立模型,从而达到检测社交网络中的账号是否为社交机器人的目的。
技术领域
本发明涉及一种基于博文相似性的社交机器人检测系统及方法,属于机器学习和社交网络技术领域。
背景技术
随着互联网的飞速发展,社交网络已经成为绝大多数人们生活中不可或缺的一部分,为人们的生活和交际提供了许多便利。但随着人工智能的逐渐发展,在社交网络中也出现了许多并非真人控制的账号,这些模仿人类行为活跃在社交网络上的账号,被称之为社交机器人。据报道,Facebook认为其用户大约有8300万为虚假使用者;而在推特中,奥巴马的1782万关注者中,有29.9%的人为虚假账户;同样的米特·罗姆尼(Mitt Romney)的814000名关注者中,也有21.9%的用户可能是社交机器人(参考文献[1])。这些社交机器人在政治活动中可以用于摇摆选民,发动政治攻击,操纵公众舆论等,还有一些社交机器人被用于在社交网络中进行市场营销,例如发布广告,制造流行趋势等。这些行为,对社交网络内容的真实性造成了一定的影响。但更需要重视的是,除此之外,社交机器人还带来各种各样的安全风险,其中之一就是通过与社交网络用户建立联系,从而获得网络用户个人详细信息如生日、电子邮件、电话号码、地址等,在获取了这些信息后,社交机器人背后的操作者可以利用网络用户个人信息及建立的信任关系,对目标进行社会工程学攻击(参考文献[2])。
目前国内外对社交机器人检测技术进行了大量的研究工作。从检测方法上可以分为:1.基于蜜罐系统的社交机器人检测(参考文献[3]):这种方法通过设置账号并发布正常用户不会关注的无意义内容来吸引社交机器人的关注。2.基于特征阈值的社交机器人检测(参考文献[4]):通过观察社交机器人的行为,提取特征,通过大量实验得到特征阈值,需要判断的账号与阈值比较后得到结果。3.基于机器学习的社交机器人检测(参考文献[5]):通过提取特征,进行机器学习,得到训练好的模型,将需要判断的账号输入模型即可得到预测结果。
其中,基于机器学习的社交机器人检测方法得到了普遍的应用。但是随着技术的不断发展,机器人账号更加智能,原有的特征已不能很好的反应目前的趋势。并且,已有的方法多着重账号的配置文件以及账号的行为习惯,并未对发布的内容风格进行研究,因此对于可以模仿正常用户的配置文件及行为习惯的社交机器人检测效果不佳,需要提出新的特征。
社交机器人是人工智能飞速发展的产物之一,相比于传统的垃圾账号,社交机器人更加智能。它们可以捕捉热门话题,发布相关信息从而获取更多正常用户的关注。社交机器人还可以在某一领域成为具有影响力的用户,影响公众意见。其次,有不法分子利用社交机器人对用户进行社会工程学攻击。由于社交网络中用户个人信息较为容易获取,所以社交机器人可以通过与用户建立起信任关系,进而对用户进行社会工程学攻击,在社交网络中具有威胁性。现有的社交机器人检测,对新型智能机器人的检测表现一般,需要针对当前社交机器人特点,发现新的特征及方法建立模型来进行检测。
参考文献如下:
1、Shafahi,M.,Kempers,L.,Afsarmanesh,H.:Phishing through social botson twitter.In:IEEE International Conference on Big Data.pp.3703{3712(2017).
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811284749.8/2.html,转载请声明来源钻瓜专利网。