[发明专利]一种针对网页作弊的反作弊方法及系统有效
申请号: | 200710119520.4 | 申请日: | 2007-07-25 |
公开(公告)号: | CN101093510A | 公开(公告)日: | 2007-12-26 |
发明(设计)人: | 张智敏;茹立云 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 100084北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 网页 作弊 方法 系统 | ||
技术领域
本发明涉及网络技术领域,特别是涉及一种针对网页作弊的反作弊方法及系统。
背景技术
目前,互联网上针对搜索引擎的网页作弊行为越来越多,基本分为如下几类:基于关键字叠加的作弊方法,指对于一个价值不大的网页,通过堆积大量的关键字,使得该网页能够被搜索引擎搜索到;基于链接作弊的方法,是通过堆积大量的链接来提高在搜索引擎中的网页级别(Page Rank),达到网页排名靠前的目的;基于脚本作弊的方法,是利用Javascript等脚本程序更换显示内容作弊;针对搜索引擎的网页抓取程序(Spider)作弊,用户通过浏览器看到的是另外一个网页。
在各种网页作弊方式中,有些作弊的后果对用户影响不大,例如一个网站针对一些查询词进行了作弊,但是用户没有去点击这些网页,在这种情况下,即使这个网站进行了作弊,对用户的体验也没有影响。但是在多数情况下,作弊行为会对用户体验造成严重影响,例如上述脚本作弊和针对搜索引擎的网页抓取程序(Spider)作弊方式,用户打开的网页内容被更换,或者与查询词不相关,这种搜索结果就成为搜索引擎中的垃圾网页。
现有的搜索引擎反作弊方法,主要是针对已知的作弊方式,在抓取到一个网页后,利用已知的一些规则进行判断。例如基于内容分析的反作弊方式是针对基于关键字叠加的作弊网页,通过分析关键字的重复度,确定该网页是否使用了关键字叠加技术;基于链接分析的反作弊方法是针对基于链接作弊的网页,通过链接分析,判断该网页是否使用了链接叠加的技术,但是这种方式识别的代价比较大,只会有一部分作弊网页被识别出来;还有一种反作弊方法是针对特定类型的网页作弊,对于某一类型的网页,比如铃声下载的推广站点,使用分类技术识别。
上述传统的反作弊方式都是预先分析的方法,即需要根据已知的作弊行为的特点来确定反作弊方案,而对于很多新的作弊方法,由于无法预先获知作弊特点,所以不能及时发现作弊的网页。每当出现一种新的作弊方式,现有的技术很难及时发现,更不能快速做出反应,因此一些新的作弊方式总会在一段时间内对用户体验造成非常严重的影响。而且,对于已知的基于脚本作弊的方法和针对搜索引擎的网页抓取程序作弊的方法,传统的反作弊方法几乎无法进行识别判断,但这些作弊方式给用户使用带来非常大的影响。
发明内容
本发明所要解决的技术问题是提供一种针对网页作弊的反作弊方法及系统,以解决目前的网页反作弊方法对于新的作弊方式,无法及时发现并快速做出反应,从而对用户体验造成严重影响的问题。
为解决上述技术问题,根据本发明提供的具体实施例,本发明公开了以下技术方案:
一种针对网页作弊的反作弊方法,包括:
记录网页的访问信息;
分析网页访问信息的变化规律;
将变化规律突变的网页确定为作弊网页。
其中,按照以下步骤确定作弊网页:查询已知的作弊网页的历史访问信息,计算作弊前的访问信息与作弊后的访问信息的差别度,确定网页作弊的阈值;判定网页时,将网页当前的访问信息与历史访问信息进行差别度计算;将所述计算结果与阈值比较,根据比较结果得到网页作弊的概率。
其中,分时段查询网页的访问信息,若查询结果为在时间段内通过搜索引擎点击该网页的总点击数,则利用所述网页总点击数计算访问信息的差别度。
其中,分时段查询网页的访问信息,若查询结果为在时间段内点击该网页的所有查询词及对应查询词的点击次数,则利用所述查询词及相应的点击次数计算访问信息的差别度。
优选的,所述方法还包括预处理步骤:查找查询词的属性信息,包括在时间段内通过该查询词点击的所有网页URL及对应URL的点击次数;将属性信息相同或相近的查询词合并成一个查询词再进行差别度计算。
所述方法还包括:从热点查询词的属性信息记录的网页URL中,选择网页级别突然提高或点击次数突然增多的网页进行作弊判断。
一种针对网页作弊的反作弊系统,包括:
数据库,用于记录网页的访问信息;
数据分析子系统,用于分析网页访问信息的变化规律;
作弊判断子系统,用于根据数据分析子系统的分析结果,将变化规律突变的网页确定为作弊网页。
其中,所述数据分析子系统包括:查询单元,用于从数据库查询并读取网页的访问信息;模型生成单元,用于利用已知的作弊网页的历史访问信息,将作弊前的访问信息与作弊后的访问信息进行差别度计算,确定网页作弊的阈值,生成判断模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710119520.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:猪胚胎冷冻保存方法及用途
- 下一篇:钢铁件的热浸镀锌方法