[发明专利]一种基于多维数据异常簇挖掘的垃圾网页检测方法有效
申请号: | 201110110507.9 | 申请日: | 2011-04-29 |
公开(公告)号: | CN102184208A | 公开(公告)日: | 2011-09-14 |
发明(设计)人: | 戴翰波;林一平;房为华 | 申请(专利权)人: | 武汉慧人信息科技有限公司;吴卉 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430073 湖北省*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多维 数据 异常 挖掘 垃圾 网页 检测 方法 | ||
技术领域
本发明涉及一种基于异常数据簇挖掘的垃圾网页检测方法,定义离群因素来解释垃圾网页不同与其他正常网页的原因,并量化垃圾网页的异常程度即其影响搜索结果的程度,属于数据挖掘和搜索引擎邻域。
背景技术
垃圾网站一般指不是真为访客提供有价值内容或者信息为目的,而以欺骗搜索引擎、骗取点击获得利益的网页。
垃圾网页广泛存在于因特网。据雅虎2010年的调查报告显示,全球垃圾网页的数量占到了全部网页的30%。据百度估计,垃圾网页的数量可能占到中国互联网总网页数的50%左右。垃圾网页的存在减少了搜索结果的有效程度,影响了用户满意度,减少了搜索引擎的收入。谷歌预测每年因为垃圾网页而直接或间接损失的收入就达到数亿美金。这样,对于搜索引擎公司来说,如何在搜索结果中过滤垃圾网页或降低垃圾网页的排名就成为非常重要问题。
现阶段的垃圾网页检测方法主要是通过提取垃圾网页的特征,然后利用监督或半监督机器学习的方法来分别垃圾网页和正常网页。这种方法需要工程师先在大量网页中找出垃圾网页,然后分析这些垃圾网页,从而提取有效的网页特征。这样,这种方法对于检测和已经发现的垃圾网页类似的网页很有效。但是对于使用新的方法欺骗搜索引擎的垃圾网页,检测的准确度就很低。
异常数据或离群数据是指在一个数据集中的少部分数据和其余的数据不一致或是相对于其余数据表现异常。这些数据好像是“孤立“的不合群的。他们产生往往都是因为一些意外的或是异常的事情发生。比如,我们观察一台计算机的网络流量数据,如果发现在特定的时间流量比其余时间意外的高很多,这些就是异常数据,而这些异常数据很有可能就是因为这台计算机被木马攻击了后,在向外传输用户的敏感数据。比如,我们观察一个病人的CT片,发现一些部分和周围的点非常不一样,这个部分可能就是肿瘤。再比如,我们观察一个用户的信用卡使用数据,如果发现一个时间点以后发生了很多笔比历史交易数额大很多并且更频繁的交易,很有可能这个信用卡就被盗用了。
但是,异常数据在数据集中并不是都是以孤立点的形式存在的。事实上,我们经常发现一个簇的数据相异于其余的数据,而不仅仅是一个数据相异于其余数据。这些异常簇彼此之间相似,并且聚集在多维度上的某一个孤立的区域。比如,病人的体温记录,往往是连续多个时间点上的体温都比平时高,这些代表高温的点就形成了一个簇。比如,对于信用卡的使用情况,我们可以发现一群用户,他们彼此相似并且都具有和其余用户不同的透支交易习惯和数额。这群用户可能就在使用相同的欺骗手法。再比如,对于网上电子商务的交易数据,我们发现有一群用户都是开始阶段用很短的时间和相同的几个客户进行很多笔小数额的交易,并且这些交易都得到了很高的评价。那么这群用户很可能在使用不正当的虚假交易的方式使自己的信用级别提高。这群用户就是一个异常簇,因为他们和其他用正当方式提高信用级别的用户不一样。
对于这种异常簇数据,现有的用来挖掘孤立点的技术就不能直接而有效的这些异常数据了。比如基于距离的孤立点挖掘技术会把在异常簇里面的数据点都看做是正常的,因为这些数据点在多维空间里面还有很多和离他们很近的数据点。这些数据点因为结成了一个类簇,就逃避了现有的挖掘孤立点技术的检测。
现阶段也有研究人员使用聚类技术来挖掘这些异常簇。聚类技术将给定的数据集分成一个个的类簇,使得处于一个类簇中的数据很相似,而不同类簇中的数据不相似。这些研究人员首先使用聚类方法得到一个个的类簇,然后他们认为“小”的类簇就是异常簇。这个方法在某种程度上考虑了异常簇中的数据彼此相似的问题,但是这个方法存在两个缺点:第一,并不是所有的小类簇都是孤立的;第二,缺少一个系统的方法决定异常簇的大小,并且这个类簇大小的参数会直接影响到异常簇挖掘结果的准确性和稳定性。因此,我们需要一个直接检测异常簇的方法而不是先找出类簇然后再从中挖掘异常簇。
发明内容
本发明所要解决的技术问题是:现有的垃圾网页检测技术大多基于人工首先找出的垃圾网页样本来检测垃圾网页,这种方法不能有效的检测出使用新的欺骗搜索引擎方法的垃圾网页,因而准确率不高。本发明提出一种基于异常数据簇挖掘的方法,将垃圾网页看作是与普通正常的网页不一样的异类来进行挖掘,不需要垃圾网页样本,具有很高的准确率。针对存在大量垃圾网页的问题,本发明定义垃圾网页的异常因素用于解释这些网页异常的原因。异常因素中的异常度反映垃圾网页的异常程度,因而找出网页中最异常即最影响搜索引擎结果的垃圾网页。
本发明的技术方案为具体包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉慧人信息科技有限公司;吴卉,未经武汉慧人信息科技有限公司;吴卉许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110110507.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:气动隔离开关
- 下一篇:一种适合自动组装机组装的旋转开关
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置