[发明专利]一种基于博文相似性的社交机器人检测系统及方法在审
申请号: | 201811284749.8 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109472027A | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 伍淳华;郑康锋;武斌;王雅晗 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35;G06Q50/00 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 祗志洁 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于博文相似性的社交机器人检测系统及方法,属于机器学习和社交网络技术领域。包括:离线数据库、特征提取模块、社交机器人检测模型训练模块、社交账号信息数据收集模块、社交机器人检测模块和检测结果输出模块。对离线数据集中账号使用语言是英语的每条账号数据进行元数据特征提取;对经过处理后的每条账号数据,账号的博文数量大于K条的对博文内容进行特征提取;将前述获取的元数据特征和博文内容提取的特征采用不同机器学习算法进行模型训练,选出最优检测模型作为最终的社交机器人检测模型。本发明通过提取包括博文相似性在内的多维特征,采用机器学习算法建立模型,从而达到检测社交网络中的账号是否为社交机器人的目的。 | ||
搜索关键词: | 机器人 机器学习算法 检测 元数据特征 检测系统 社交网络 账号数据 模型训练模块 特征提取模块 离线数据库 多维特征 机器学习 检测结果 检测模块 建立模型 离线数据 模型训练 内容提取 社交账号 收集模块 输出模块 特征提取 信息数据 账号使用 英语 语言 | ||
【主权项】:
1.一种基于博文相似性的社交机器人检测系统,包括:离线数据库、特征提取模块、社交机器人检测模型训练模块、社交账号信息数据收集模块、社交机器人检测模块和检测结果输出模块;离线数据库存储带标签的离线数据集,离线数据集包含社交机器人账号以及正常用户账号的数据,标签用于标记账号是否为社交机器人;特征提取模块用于对输入的账号数据进行特征提取,对符合要求1和2的账号数据进行特征提取;要求1是账号使用语言是英语,要求2是账号的博文数量大于K条,K为大于等于2的正整数;特征提取模块所提取的特征包括元数据特征和博文内容特征;其中元数据特征包括用户关注数和用户粉丝数的比例、用户点赞数、发布博文的客户端、博文发布的时间间隔和转发博文占总博文的比重;博文内容特征包括账号行为特征和博文相似性特征,其中,账号行为特征包括:平均每条博文的提及人数、平均每条博文的带话题数、以及平均每条博文含URL链接数;博文相似性特征包括:内容相似性、标点符号相似性、博文长度相似性和停用词使用相似性;社交机器人检测模型训练模块利用特征提取模块进行特征提取后的带标签的离线数据,采用多种机器学习算法进行模型训练,并通过测试数据获得最优检测模型,将该最优检测模型输入社交机器人检测模块;社交账号信息数据收集模块用于利用网络爬虫技术从社交网络中爬去待检测的账号数据;社交账号信息数据收集模块将爬取的待检测的账号数据输入特征提取模块;社交机器人检测模块中存储最优检测模型;待检测的账号数据经过特征提取模块提取特征后输入社交机器人检测模块,通过最优检测模型进行账号检测,检测结果输出给检测结果输出模块;检测结果输出模块将预测的账号结果反馈到用户,若模型判定为社交机器人则发出警告提醒。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811284749.8/,转载请声明来源钻瓜专利网。