[发明专利]Web网站死链检测方法无效

专利信息
申请号: 201210264476.7 申请日: 2012-07-29
公开(公告)号: CN102752154A 公开(公告)日: 2012-10-24
发明(设计)人: 蔡皖东;姚卓;姚烨 申请(专利权)人: 西北工业大学
主分类号: H04L12/24 分类号: H04L12/24;H04L29/08;G06F17/30
代理公司: 西北工业大学专利中心 61204 代理人: 王鲜凯
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种Web网站死链检测方法,用于解决现有的Web网站死链检测方法覆盖率低的技术问题。技术方案是首先对种子列表seedURLs和URL队列初始化,再进行死链分析和判断操作,然后提取实体E中的所有超链接,对提取出的超链接进行预处理,把精简后的链接加入到URL库A中,输出死链文件中的死链及其原因,并向网络管理员发送邮件通知。由于通过动态遍历策略,自动获取较全面的网站链接信息;通过重复网页去除、链接筛选等预处理,对新生成的URL库进行精简,去除重复的网页并且筛选出满足条件的链接,提高了数据采集效率;最后根据死链产生的原因和分类,给出了对应的检测方案,从而提高了检测覆盖率和处理效率。测试表明,本发明达到了93.86%的覆盖率。
搜索关键词: web 网站 检测 方法
【主权项】:
一种Web网站死链检测方法,其特征在于包括以下步骤:(1)判断种子列表seedURLs中的URL的合法性,如果合法放到URL库A中,否则把该URL和错误原因记录到死链的errorSite队列中,进入步骤(6);(2)死链分析和判断操作:①如果A非空,取出一个URL X放入缓存的NamedSite队列中,如果X的域名不是数字形式,把X放到队列dnsSite队列中,进入步骤②,否则进入步骤④;如果A为空,算法结束,死链判断完毕,进入步骤(6);②向DNS服务器发送链接X的域名查询请求;③DNS服务器通过递归查询返回链接X的IP地址X.IP,如果递归查询失败,则deadlink(X)=1,发生DNS解析错误,把X和错误原因记录到死链的errorSite文件中,返回步骤①;④与X.IP建立一个TCP连接后,向Web服务器发送消息请求,请求资源X.R,请求消息中包括GET方法、资源指示符、请求头域以及实体头域;⑤Web服务器接收和解析一个请求消息后,发出一个HTTP响应消息R,响应消息中包含状态行S、响应头域以及实体E;⑥取S的第一个数字S.N,如果S.N=4或者S.N=5,则deadlink(X)=1,把X和错误原因记录到死链的errorSite文件中,返回步骤①;如果S.N=3,查看响应头域的Location字段,如果内容为空或者是不合语法的URL,则deadlink(X)=1,发生重定向错误,把X和错误原因记录到死链的errorSite文件中,返回步骤①;⑦取实体E进行分析,如果实体的长度E.Length=0,则deadlink(X)=1,把X和错误原因记录到死链文件中,返回步骤①;⑧deadlink(X)=0,进入步骤(3);(3)提取实体E中的所有超链接;(4)对提取出的超链接进行预处理,首先是链接筛选,把网页深度>5的URL或者不合语法的URL过滤掉,然后进行去重处理,使用Bloom filter算法删除掉与URL库A中MD5值相同的URL;(5)把精简后的链接加入到URL库A中,进入步骤(2);(6)输出死链文件中的死链及其原因,并向网络管理员发送邮件通知。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210264476.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top