[发明专利]基于HTTP响应的网站资产失活检测和更新方法有效
申请号: | 201911090163.2 | 申请日: | 2019-11-08 |
公开(公告)号: | CN110932928B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 吴丹;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | H04L67/02 | 分类号: | H04L67/02;H04L43/0805;H04L43/10;G06F16/951 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 金祺;周世骏 |
地址: | 310051 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 http 响应 网站 资产 活检 更新 方法 | ||
1.基于HTTP响应的网站资产失活检测和更新方法,其特征在于:包括以下步骤:
1)、获取待检测的网站域名;执行步骤2);
2)、向服务器请求该域名获取HTTP响应状态码,判断是否属于失活状态码,如果属于失活状态码,进行步骤3);如果不属于则执行步骤11);
归类为失活状态码的有307、400、421、422、502、503、504、550、552和553,当向服务器请求时返回失活状态码时,网站都属于关闭或请求失败的失活状态;
3)、判断HTTP响应状态码是否为重定向码301或302,如果不是则执行步骤4);如果是则执行步骤5);
4)、网站状态正常,网站不需要更新,流程结束;
5)、获取重定向后的网站域名;执行步骤6);
6)、判断重定向后的网站域名与待检测的网站域名是否相同,如果相同,执行步骤4);如果不相同,执行步骤7);
当重定向后的网站域名与待检测的网站域名不同,存在情况为以下任一:网站更新了域名或者IP,访问原网站即转移到新地址;
7)、爬取重定向后网站的标题、主办单位和域名备案信息;执行步骤8);
8)、判断重定向后网站的网站标题、主办单位、域名备案信息是否接近原网站关键词信息,如果接近执行步骤9),如果不接近执行步骤10);
原网站关键词信息在第一次录入该网站时便同时录入,关键词获取方式是爬虫爬取网站,匹配网站标题、主办单位的关键词;
如果重定向后网站的标题、主办单位和域名备案信息中含有超过80%原网站关键词信息,则判定为接近;否则,判定为不接近;
9)、将待检测的网站域名替换成重定向后的网站域名,结束;
10)、丢弃重定向的网站域名,执行步骤11);
11)、根据原网站关键词信息获取网站的关键词,执行步骤12);
12)、根据关键词从搜索引擎爬取网站信息,获取搜索引擎搜索到的网站域名作为搜索所得网站;执行步骤13);
13)、依序请求每个网站域名,获取HTTP响应状态码;执行步骤14);
14)、判断HTTP响应状态码是否为200,如果不是则执行步骤15);如果是则执行步骤16);
15)、丢弃网站,执行步骤18);
16)、爬取搜索所得网站的标题、主办单位和域名备案信息;执行步骤17);
17)、将标题、主办单位、域名备案信息分别与原网站关键词信息比较获取相似度,取三者相似度的平均值作为最终的准确率;执行步骤18);
具体为:根据原网站关键词信息和搜索所得网站的标题、主办单位、域名备案信息计算此网站为新网站的准确率,计算方法采用比较相似度的方法,将标题、主办单位、域名备案信息分别与原网站关键词比较获取百分值,取三者相似度的平均值作为最终的准确率;
18)、判断是否还有搜索所得网站未处理,如果有则执行步骤13),没有则进行步骤19);
19)、比较所有的搜索所得网站的准确率,获取准确率最高的搜索所得网站的域名作为新的域名;执行步骤20);
20)、将监管的网站资产列表中待检测的网站域名替换成新的域名,结束。
2.根据权利要求1所述的基于HTTP响应的网站资产失活检测和更新方法,其特征在于:
搜索引擎为百度搜索引擎。
3.根据权利要求2所述的基于HTTP响应的网站资产失活检测和更新方法,其特征在于:
步骤12)获取搜索引擎排名前十的网站域名作为搜索所得网站。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911090163.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:飞灰处理系统
- 下一篇:一种PVC发泡尾气净化剂