[发明专利]一种基于混合狄利克雷过程的网络水军行为检测方法及系统有效
申请号: | 201410073426.X | 申请日: | 2014-02-28 |
公开(公告)号: | CN103812872B | 公开(公告)日: | 2016-11-23 |
发明(设计)人: | 李丹;李倩;牛温佳;管洋洋;黄超;孙卫强;胡玥;郭莉 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F17/30 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 狄利克雷 过程 网络 水军 行为 检测 方法 系统 | ||
技术领域
本发明涉及网络安全领域,尤其涉及一种基于混合狄利克雷过程的网络水军行为检测方法及系统。
背景技术
社交网络的流行升温和迅猛发展不仅带来了信息传播技术的根本性变革,而且正一步一步改变着人们的生产和生活方式、人际交往以及思维方式,对社会生活的各个领域和人类自身的生存与发展产生了广泛而深刻的影响。目前,社交网络含盖以人类社交为核心的所有网络服务形式,从历史维度来看,它将是一个推动互联网向现实世界无限靠近的关键力量。
在社交网络迅速发展的同时,它所带来的安全问题也越来越突出,其中以来源于“网络水军”的安全问题最为常见。“网络水军”是受雇于网络公关公司,针对特定主题进行发回帖造势的网络用户,据相关机构调查,我国从事网络营销活动的推手已达数百万人,受雇于商业组织的“网络水军”日趋规模化、公开化、集团利益化。从“7.23”动车事故天价赔偿事件到秦火火事件,从“封杀王老吉营销策划方案”到猫扑的“虐猫女事件”再到“蒙牛陷害门”丑闻,可以说,“网络水军”已经触碰到了法律的底线,甚至有一部分“网络水军”在国外别有用心的机构操纵之下,在国内各大论坛发布攻击信息、造谣言论和挑拨语言,制造矛盾,进行恶意的网络文化渗透,危害国家安全。可见,对“网络水军”进行监管已经刻不容缓。
对网络水军的监管可以通过两种方式:一种是针对每个帖子进行判断,对水军贴进行删帖处理;另一种是针对每个用户行为进行判断,对水军用户封号删帖,甚至追究其法律责任。前一种方式需要对水军贴的特征有客观的、统一的描述,然而中国数亿网民的发帖习惯各不相同,很难找到统一的标准来鉴别水军贴,因此这种方式只用于屏蔽敏感词汇,而对通用水军识别场景不适用。现有的水军识别多采用第二种方式,即通过用户行为判断论坛用户是否水军。
一种普遍的识别方式是对用户行为进行横向比较,从而发现“网络水军”的行为规律,制定识别方案。现有的“网络水军”发现一般采用决策树、KNN、神经网络等算法,这几种算法设计过程中,需要依据历史经验设定关键参数的值,用于体现用户行为的每个方面对判定结果影响程度的不同,这种方式带有很大的主观性,严重影响了算法的判定准确率。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供基于混合狄利克雷过程的网络水军行为检测方法及系统。
本发明解决上述技术问题的技术方案如下:一种基于混合狄利克雷过程的网络水军行为检测方法,包括如下步骤:
步骤1:原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示,量化后的原始数据构成用户的历史行为向量,所有用户的历史行为向量集合在一起构成待聚类用户数据集;
步骤2:聚类模块对待聚类用户数据集中的历史行为向量采用狄利克雷过程混合模型进行聚类,得到至少一个分类用户行为集合;
步骤3:转换合并模块将一个分类用户行为集合中的数据进行转换,对转换后的数据中具有相同用户标识的数据合并,将具有相同用户标识的数据按时间排序,得到事务集序列;
步骤4:判断模块判断是否还有未转换的分类用户行为集合;如果有,执行步骤3;否则,得到一个事务集序列构成的序列数据库;
步骤5:模式挖掘模块对序列数据库进行序列模式挖掘,得到分别对应每个分类用户行为集合的至少一个事务序列模式;
步骤6:水军判断模块比较每个事务序列模式,得到对应分类用户行为集合,通过比较每个分类用户行为集合的用户行为就可以判断出主哪一类是水军账号。
本发明的有益效果是:本发明首先用混合DP模型对没有分类的样本数据集合进行聚类,聚类分析是通过Gibbs采样算法,反复从条件分布中采样并更新模型参数,估计数据的聚类结果。其中,Gibbs采样法属马尔可夫链蒙特卡罗方法(Markov Chain Monte Carlo,MCMC),是替代精确推理的近似推理方法。和其它MCMC算法一样,Gibbs采样法产生一条马尔可夫链,经过足够次数的采样后,该马尔可夫链可以达到稳态。当经过多次迭代以后,聚类效果比较明显,然后利用序列模式挖掘算法得到每一个类的频繁行为序列,分析这些频繁行为序列得到用户行为,由于“网络水军”的用户行为主要集中在发帖,所以可以很容易分辨出哪一类属于水军账号,这样就可以实现对“网络水军”的识别了。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,步骤2中的具体包括以下步骤:
步骤2.1:聚类模块接收待聚类用户数据集中的历史行为向量,构造Dirichlet狄利克雷过程混合模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410073426.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:喂入式组合型杆穗分离机构
- 下一篇:一种焚烧回转窑用耐火衬浇注料