[发明专利]一种自动进行网站分析的方法及装置在审

专利信息
申请号: 201210232731.X 申请日: 2012-07-05
公开(公告)号: CN103530297A 公开(公告)日: 2014-01-22
发明(设计)人: 石靖岚 申请(专利权)人: 北京百度网讯科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人: 袁媛
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 自动 进行 网站 分析 方法 装置
【权利要求书】:

1.一种自动进行网站分析的方法,包括:

A.从到达网站的请求数据中获取一个以上的链接地址;

B.利用获取的链接地址确定所述网站包含的每个主域下的各级目录的可能取值作为各级目录的当前值;

C.将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对以判断所述网站是否存在新增链接地址或失效链接地址。

2.根据权利要求1所述的方法,其特征在于,所述步骤A中通过旁路镜像系统抓取到达网站的请求数据,并从所述请求数据中提取一个以上的链接地址。

3.根据权利要求1所述的方法,其特征在于,所述步骤B包括:

B1.将获取的链接地址拆分为主域和各级目录的形式;

B2.利用相同主域的链接地址统计该主域下的同级目录中的出现值,并根据统计到的同级目录中的出现值确定同级目录的可能取值。

4.根据权利要求3所述的方法,其特征在于,根据统计到的同级目录中的出现值确定同级目录的可能取值的步骤包括:

当统计到的同级目录中的出现值为数字型时,确定该级目录的可能取值的下限为统计到的出现值中的最小值,该级目录的可能取值的上限为统计到的出现值中的最大值;

当统计到的同级目录中的出现值为枚举型时,确定该级目录的可能取值为统计到的每个出现值;

当统计到的同级目录中的出现值为字符串型时,确定该级目录的可能取值为任意字符串。

5.根据权利要求1所述的方法,其特征在于,所述步骤C包括:

将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对;

当比对结果中存在属于历史值构成的链接地址范围而不属于当前值构成的链接地址范围内的历史链接地址时,向所述历史链接地址发出访问请求,并且在所述访问请求无法返回可访问页面时,将该历史链接地址作为失效链接地址;

当比对结果中存在属于当前值构成的链接地址范围而不属于历史值构成的链接地址范围内的当前链接地址时,将该当前链接地址作为新增链接地址。

6.根据权利要求1所述的方法,其特征在于,所述方法在所述步骤C前进一步包括:在获取的链接地址中统计相同链接地址传递的各个参数组合及每个组合中各参数出现值,将各个参数组合作为所述网站中与获取的链接地址对应的文件的可接收参数,并根据每个组合中各参数出现值确定所述可接收参数的可能取值;并且,所述方法在所述步骤C中进一步将所述可接收参数与历史参数进行比对,将所述可接收参数的可能取值与历史参数值进行比对以判断所述网站中的文件是否存在参数变更。

7.根据权利要求1所述的方法,其特征在于,所述方法在步骤A后进一步包括:

将获取的链接地址与预设的异常关键字列表进行匹配验证,并将匹配的链接地址所对应的请求数据作为异常访问数据以给出预警提示。

8.一种自动进行网站分析的装置,包括:

抓取单元,用于从到达网站的请求数据中获取一个以上的链接地址;

确定单元,用于利用获取的链接地址确定所述网站包含的每个主域下的各级目录的可能取值作为各级目录的当前值;

比对单元,用于将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对以判断所述网站是否存在新增链接地址或失效链接地址。

9.根据权利要求8所述的装置,其特征在于,所述抓取单元通过旁路镜像系统抓取到达网站的请求数据,并从所述请求数据中提取一个以上的链接地址。

10.根据权利要求8所述的装置,其特征在于,所述确定单元包括:

拆分单元,用于将获取的链接地址拆分为主域和各级目录的形式;

第一统计单元,用于利用相同主域的链接地址统计该主域下的同级目录中的出现值,并根据统计到的同级目录中的出现值确定同级目录的可能取值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210232731.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top