[发明专利]一种基于混合狄利克雷过程的网络水军行为检测方法及系统有效
申请号: | 201410073426.X | 申请日: | 2014-02-28 |
公开(公告)号: | CN103812872B | 公开(公告)日: | 2016-11-23 |
发明(设计)人: | 李丹;李倩;牛温佳;管洋洋;黄超;孙卫强;胡玥;郭莉 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F17/30 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于混合狄利克雷过程的网络水军行为检测方法及系统,其方法为,采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示构成用户的历史行为向量,构成待聚类用户数据集;对待聚类用户数据集中的历史行为向量进行聚类,得到至少一个分类用户行为集合;将所有分类用户行为集合中的数据进行转换,对转换后的数据中具有相同用户标识的数据合并,得到序列数据库;模式挖掘模块对序列数据库进行序列模式挖掘,得到分别对应每个分类用户行为集合的至少一个事务序列模式;水军判断模块比较每个事务序列模式,就可以判断出哪个分类用户行为集合是水军账号。本发明很容易分辨出哪一类属于水军账号。 | ||
搜索关键词: | 一种 基于 混合 狄利克雷 过程 网络 水军 行为 检测 方法 系统 | ||
【主权项】:
一种基于混合狄利克雷过程的网络水军行为检测方法,其特征在于,包括如下步骤:步骤1:原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示,量化后的原始数据构成用户的历史行为向量,所有用户的历史行为向量集合在一起构成待聚类用户数据集;步骤2:聚类模块对待聚类用户数据集中的历史行为向量采用狄利克雷过程混合模型进行聚类,得到至少一个分类用户行为集合;步骤3:转换合并模块将一个分类用户行为集合中的数据进行转换,对转换后的数据中具有相同用户标识的数据合并,将具有相同用户标识的数据按时间排序,得到事务集序列;步骤4:判断模块判断是否还有未转换的数据;如果有,执行步骤3;否则,得到一个事务集序列构成的序列数据库;步骤5:模式挖掘模块对序列数据库进行序列模式挖掘,得到分别对应每个分类用户行为集合的至少一个事务序列模式;步骤6:水军判断模块比较每个事务序列模式,得到对应分类用户行为集合,通过比较每个分类用户行为集合的用户行为就可以判断出哪一类是水军账号;所述步骤5具体包括以下步骤:步骤5.1:扫描序列数据库,根据预设的最小支持阈值min_sup挖掘出频繁项集,并将所述频繁项集映射为简单符号;步骤5.2:将序列数据库中的每个事务集序列转换成所包含的频繁项集的格式,并采用步骤5.1所述的简单符号表示;步骤5.3:对变换后的序列数据库中的数据选取适合的挖掘算法进行序列模式挖掘得到每个分类的一系列事务序列模式;步骤5.4:对所述事务序列模式优化处理,得到分别对应每个分类用户行为集合的至少一个事务序列模式。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410073426.X/,转载请声明来源钻瓜专利网。
- 上一篇:喂入式组合型杆穗分离机构
- 下一篇:一种焚烧回转窑用耐火衬浇注料