[发明专利]一种自动进行网站分析的方法及装置在审
申请号: | 201210232731.X | 申请日: | 2012-07-05 |
公开(公告)号: | CN103530297A | 公开(公告)日: | 2014-01-22 |
发明(设计)人: | 石靖岚 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 进行 网站 分析 方法 装置 | ||
1.一种自动进行网站分析的方法,包括:
A.从到达网站的请求数据中获取一个以上的链接地址;
B.利用获取的链接地址确定所述网站包含的每个主域下的各级目录的可能取值作为各级目录的当前值;
C.将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对以判断所述网站是否存在新增链接地址或失效链接地址。
2.根据权利要求1所述的方法,其特征在于,所述步骤A中通过旁路镜像系统抓取到达网站的请求数据,并从所述请求数据中提取一个以上的链接地址。
3.根据权利要求1所述的方法,其特征在于,所述步骤B包括:
B1.将获取的链接地址拆分为主域和各级目录的形式;
B2.利用相同主域的链接地址统计该主域下的同级目录中的出现值,并根据统计到的同级目录中的出现值确定同级目录的可能取值。
4.根据权利要求3所述的方法,其特征在于,根据统计到的同级目录中的出现值确定同级目录的可能取值的步骤包括:
当统计到的同级目录中的出现值为数字型时,确定该级目录的可能取值的下限为统计到的出现值中的最小值,该级目录的可能取值的上限为统计到的出现值中的最大值;
当统计到的同级目录中的出现值为枚举型时,确定该级目录的可能取值为统计到的每个出现值;
当统计到的同级目录中的出现值为字符串型时,确定该级目录的可能取值为任意字符串。
5.根据权利要求1所述的方法,其特征在于,所述步骤C包括:
将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对;
当比对结果中存在属于历史值构成的链接地址范围而不属于当前值构成的链接地址范围内的历史链接地址时,向所述历史链接地址发出访问请求,并且在所述访问请求无法返回可访问页面时,将该历史链接地址作为失效链接地址;
当比对结果中存在属于当前值构成的链接地址范围而不属于历史值构成的链接地址范围内的当前链接地址时,将该当前链接地址作为新增链接地址。
6.根据权利要求1所述的方法,其特征在于,所述方法在所述步骤C前进一步包括:在获取的链接地址中统计相同链接地址传递的各个参数组合及每个组合中各参数出现值,将各个参数组合作为所述网站中与获取的链接地址对应的文件的可接收参数,并根据每个组合中各参数出现值确定所述可接收参数的可能取值;并且,所述方法在所述步骤C中进一步将所述可接收参数与历史参数进行比对,将所述可接收参数的可能取值与历史参数值进行比对以判断所述网站中的文件是否存在参数变更。
7.根据权利要求1所述的方法,其特征在于,所述方法在步骤A后进一步包括:
将获取的链接地址与预设的异常关键字列表进行匹配验证,并将匹配的链接地址所对应的请求数据作为异常访问数据以给出预警提示。
8.一种自动进行网站分析的装置,包括:
抓取单元,用于从到达网站的请求数据中获取一个以上的链接地址;
确定单元,用于利用获取的链接地址确定所述网站包含的每个主域下的各级目录的可能取值作为各级目录的当前值;
比对单元,用于将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对以判断所述网站是否存在新增链接地址或失效链接地址。
9.根据权利要求8所述的装置,其特征在于,所述抓取单元通过旁路镜像系统抓取到达网站的请求数据,并从所述请求数据中提取一个以上的链接地址。
10.根据权利要求8所述的装置,其特征在于,所述确定单元包括:
拆分单元,用于将获取的链接地址拆分为主域和各级目录的形式;
第一统计单元,用于利用相同主域的链接地址统计该主域下的同级目录中的出现值,并根据统计到的同级目录中的出现值确定同级目录的可能取值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210232731.X/1.html,转载请声明来源钻瓜专利网。