[发明专利]Web网站死链检测方法无效
申请号: | 201210264476.7 | 申请日: | 2012-07-29 |
公开(公告)号: | CN102752154A | 公开(公告)日: | 2012-10-24 |
发明(设计)人: | 蔡皖东;姚卓;姚烨 | 申请(专利权)人: | 西北工业大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L29/08;G06F17/30 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 王鲜凯 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种Web网站死链检测方法,用于解决现有的Web网站死链检测方法覆盖率低的技术问题。技术方案是首先对种子列表seedURLs和URL队列初始化,再进行死链分析和判断操作,然后提取实体E中的所有超链接,对提取出的超链接进行预处理,把精简后的链接加入到URL库A中,输出死链文件中的死链及其原因,并向网络管理员发送邮件通知。由于通过动态遍历策略,自动获取较全面的网站链接信息;通过重复网页去除、链接筛选等预处理,对新生成的URL库进行精简,去除重复的网页并且筛选出满足条件的链接,提高了数据采集效率;最后根据死链产生的原因和分类,给出了对应的检测方案,从而提高了检测覆盖率和处理效率。测试表明,本发明达到了93.86%的覆盖率。 | ||
搜索关键词: | web 网站 检测 方法 | ||
【主权项】:
一种Web网站死链检测方法,其特征在于包括以下步骤:(1)判断种子列表seedURLs中的URL的合法性,如果合法放到URL库A中,否则把该URL和错误原因记录到死链的errorSite队列中,进入步骤(6);(2)死链分析和判断操作:①如果A非空,取出一个URL X放入缓存的NamedSite队列中,如果X的域名不是数字形式,把X放到队列dnsSite队列中,进入步骤②,否则进入步骤④;如果A为空,算法结束,死链判断完毕,进入步骤(6);②向DNS服务器发送链接X的域名查询请求;③DNS服务器通过递归查询返回链接X的IP地址X.IP,如果递归查询失败,则deadlink(X)=1,发生DNS解析错误,把X和错误原因记录到死链的errorSite文件中,返回步骤①;④与X.IP建立一个TCP连接后,向Web服务器发送消息请求,请求资源X.R,请求消息中包括GET方法、资源指示符、请求头域以及实体头域;⑤Web服务器接收和解析一个请求消息后,发出一个HTTP响应消息R,响应消息中包含状态行S、响应头域以及实体E;⑥取S的第一个数字S.N,如果S.N=4或者S.N=5,则deadlink(X)=1,把X和错误原因记录到死链的errorSite文件中,返回步骤①;如果S.N=3,查看响应头域的Location字段,如果内容为空或者是不合语法的URL,则deadlink(X)=1,发生重定向错误,把X和错误原因记录到死链的errorSite文件中,返回步骤①;⑦取实体E进行分析,如果实体的长度E.Length=0,则deadlink(X)=1,把X和错误原因记录到死链文件中,返回步骤①;⑧deadlink(X)=0,进入步骤(3);(3)提取实体E中的所有超链接;(4)对提取出的超链接进行预处理,首先是链接筛选,把网页深度>5的URL或者不合语法的URL过滤掉,然后进行去重处理,使用Bloom filter算法删除掉与URL库A中MD5值相同的URL;(5)把精简后的链接加入到URL库A中,进入步骤(2);(6)输出死链文件中的死链及其原因,并向网络管理员发送邮件通知。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210264476.7/,转载请声明来源钻瓜专利网。
- 上一篇:集团无绳电话交换机
- 下一篇:一种新型的锂离子聚合物电池及其封装工艺