[发明专利]一种融合多算法的社交网络垃圾用户检测方法在审
申请号: | 201610615016.2 | 申请日: | 2016-07-29 |
公开(公告)号: | CN106296422A | 公开(公告)日: | 2017-01-04 |
发明(设计)人: | 徐光侠;齐锦;赵竞腾;刘宴兵;常光辉;高郭威;宋洋洋;唐志京;吴新凯 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00;G06F17/30;G06K9/62 |
代理公司: | 重庆市恒信知识产权代理有限公司50102 | 代理人: | 刘小红,李金蓉 |
地址: | 400065 *** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种融合多算法的社交网络垃圾用户检测方法,利用网络爬虫的方式从社交网络中爬取用户数据,通过分析用户的行为提取相应特征构成特征向量;接着使用K‑均值(K‑Means)和DBSCAN结合的聚类算法对社交网络中的用户进行聚类;从上一步的聚类结果中挑选簇边界附近的数据和聚类中心附近的数据训练支持向量机(SVM)分类器,得到分类器模型;最后采用训练得到的SVM分类器模型对社交网络中的垃圾用户进行检测。本发明降低了人工标注数据的成本、提高了检测的准确率,并且易于实现。 | ||
搜索关键词: | 一种 融合 算法 社交 网络 垃圾 用户 检测 方法 | ||
【主权项】:
一种融合多算法的社交网络垃圾用户检测方法,其特征在于,包括以下步骤:S1:采用网络爬虫的方式采集社交网络用户数据,包过用户个人信息和用户发布的消息内容,并将用户数据存储到数据库中;S2:取出数据库中的用户数据,通过分析用户的行为,计算用户的统计特征,并通过绘制累计分布函数(CDF)曲线并选取对垃圾用户和正常用户均具有高区别度的用户特征组成特征向量V;n个用户的特征向量构成原始数据集D={V1,V2,…,Vn};S3:对于原始数据集D,采用机械抽样的方法进行抽样,获得子数据集Ds;S4:在子数据集Ds上执行DBSCAN算法进行聚类,得到簇的数目K和初始簇心m1,m2,…,mk,其中k表示簇的标号;S5:利用步骤S4得到的簇的数目K和初始簇心m1,m2,…,mk,对原始数据集D执行K‑Means算法,并通过人工抽样的方法判定每个簇是正常用户簇还是垃圾用户簇,得到聚类结果;S6:利用S5的聚类结果,筛选每个簇边界附近的数据和聚类中心附近的数据作为训练集,并采用SVM分类算法训练分类器;S7:利用S6得到的SVM分类器对社交网络中的用户进行检测,判断待测用户是否为垃圾用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610615016.2/,转载请声明来源钻瓜专利网。
- 上一篇:电视柜(现代中式框架结构)
- 下一篇:电视柜(B89)