[发明专利]一种基于混合狄利克雷过程的网络水军行为检测方法及系统有效
申请号: | 201410073426.X | 申请日: | 2014-02-28 |
公开(公告)号: | CN103812872B | 公开(公告)日: | 2016-11-23 |
发明(设计)人: | 李丹;李倩;牛温佳;管洋洋;黄超;孙卫强;胡玥;郭莉 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F17/30 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 狄利克雷 过程 网络 水军 行为 检测 方法 系统 | ||
1.一种基于混合狄利克雷过程的网络水军行为检测方法,其特征在于,包括如下步骤:
步骤1:原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示,量化后的原始数据构成用户的历史行为向量,所有用户的历史行为向量集合在一起构成待聚类用户数据集;
步骤2:聚类模块对待聚类用户数据集中的历史行为向量采用狄利克雷过程混合模型进行聚类,得到至少一个分类用户行为集合;
步骤3:转换合并模块将一个分类用户行为集合中的数据进行转换,对转换后的数据中具有相同用户标识的数据合并,将具有相同用户标识的数据按时间排序,得到事务集序列;
步骤4:判断模块判断是否还有未转换的数据;如果有,执行步骤3;否则,得到一个事务集序列构成的序列数据库;
步骤5:模式挖掘模块对序列数据库进行序列模式挖掘,得到分别对应每个分类用户行为集合的至少一个事务序列模式;
步骤6:水军判断模块比较每个事务序列模式,得到对应分类用户行为集合,通过比较每个分类用户行为集合的用户行为就可以判断出哪一类是水军账号。
2.根据权利要求1所述的一种基于混合狄利克雷过程的网络水军行为检测方法,其特征在于,步骤2中的具体包括以下步骤:
步骤2.1:聚类模块接收待聚类用户的历史行为向量数据集,并构造Dirichlet狄利克雷过程混合模型;
步骤2.2:采用Collapsed Gibbs采样算法对Dirichlet狄利克雷过程混合模型中的模型参数进行不断更新,得到数据集的聚类结果;
步骤2.3:判断聚类效果是否明显;如果是,继续执行步骤3;否则,执行步骤2.2。
3.根据权利要求1或2所述的一种基于混合狄利克雷过程的网络水军行为检测方法,其特征在于,所述步骤5具体包括以下步骤:
步骤5.1:扫描序列数据库,根据预设的最小支持阈值min_sup挖掘出频繁项集,并将所述频繁项集映射为简单符号;
步骤5.2:将序列数据库中的每个事务集序列转换成所包含的频繁项集的格式,并采用步骤5.1所述的简单符号表示;
步骤5.3:对变换后的序列数据库中的数据选取适合的挖掘算法进行序列模式挖掘得到每个分类的一系列事务序列模式;
步骤5.4:对所述事务序列模式优化处理,得到分别对应每个分类用户行为集合的至少一个事务序列模式。
4.根据权利要求3所述的一种基于混合狄利克雷过程的网络水军行为检测方法,其特征在于,所述步骤5.3中根据数据的特点和挖掘的要求选择挖掘算法进行序列模式挖掘。
5.根据权利要求3所述的一种基于混合狄利克雷过程的网络水军行为检测方法,其特征在于,所述步骤5.4中对事务序列模式的优化处理包括,删除没有应用价值的事务序列模式,归纳、整理、分类事务序列模式。
6.一种基于混合狄利克雷过程的网络水军行为检测系统,其特征在于,包括:原始数据采集模块、聚类模块、转换合并模块、判断模块、模式挖掘模块和水军判断模块;
所述原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示,量化后的原始数据构成用户的历史行为向量,所有用户的历史行为向量集合在一起构成待聚类用户数据集;
所述聚类模块对待聚类用户数据集中的历史行为向量采用狄利克雷过程混合模型进行聚类,得到至少一个分类用户行为集合;
所述转换合并模块将一个分类用户行为集合中的数据进行转换,对转换后的数据中具有相同用户标识的数据合并,将具有相同用户标识的数据按时间排序,得到事务集序列;所述判断模块判断是否还有未转换的分类用户行为集合;如果有,返回转换合并模块;否则,得到一个事务集序列构成的序列数据库并将所述序列数据库发送到模式挖掘模块;
所述模式挖掘模块对序列数据库进行序列模式挖掘,得到分别对应每个分类用户行为集合的至少一个事务序列模式;
所述水军判断模块比较每个事务序列模式,得到每个分类用户行为集合的用户行为,通过比较每个分类的用户行为就可以判断出哪个类别是水军账号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410073426.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:喂入式组合型杆穗分离机构
- 下一篇:一种焚烧回转窑用耐火衬浇注料