[发明专利]网页稳定性的检测方法、装置、电子设备及可读存储介质有效
申请号: | 202110742489.X | 申请日: | 2021-06-30 |
公开(公告)号: | CN113434378B | 公开(公告)日: | 2023-09-05 |
发明(设计)人: | 刘伟;董慧旭;张博;林赛群 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34;G06F17/18;G06F16/951 |
代理公司: | 北京市通商律师事务所 11951 | 代理人: | 巩靖 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 稳定性 检测 方法 装置 电子设备 可读 存储 介质 | ||
1.一种网页稳定性的检测方法,包括:
获取网页被访问后所返回的第一状态码以及第二状态码,其中,所述第一状态码为所述网页的状态码,所述第二状态码为所述网页中各资源的状态码;
基于所述第一状态码确定所述网页的第一稳定性值;
基于所述第二状态码确定各所述资源的第二稳定性值;
基于所述第一稳定值以及所述第二稳定性值,确定所述网页的第三稳定性值;
所述基于所述第一稳定值以及所述第二稳定性值,确定所述网页的第三稳定性值,包括:
基于预配置的所述网页的第一权重,各所述资源的第二权重,并基于所述第一稳定值以及所述第二稳定性值,确定所述网页的第三稳定性值;
所述基于所述第一状态码确定所述网页的第一稳定性值,包括:
基于预配置的状态码与状态值的对应关系,确定所述第一状态码对应的第一状态值;
基于所述第一状态值确定所述网页的第一稳定性值;
所述基于所述第二状态码确定各所述资源的第二稳定性值,包括:
基于预配置的状态码与状态值的对应关系,确定所述第二状态码对应的第二状态值;
基于所述第二状态值确定各所述资源的第二稳定性值;
若所述网页被访问多次,则所述方法还包括:
基于各次访问的发起时间,确定所述各次访问的第三权重;
所述基于所述第一状态值确定所述网页的第一稳定性值,包括:
基于所述第三权重以及各次访问的所述第一状态值,确定所述网页的第一稳定性值;
所述基于所述第二状态值确定各所述资源的第二稳定性值,包括:
基于所述第三权重以及各次访问的所述第二状态值确定各所述资源的第二稳定性值。
2.根据权利要求1所述的方法,其中,当所述资源为图像时,所述方法还包括:
基于所述图像在所述网页中的位置,和/或,所述图像在所述网页中的面积占比,确定所述资源对应的第二权重。
3.根据权利要求1所述的方法,在获取网页被访问后所返回的第一状态码以及第二状态码之前,所述方法还包括:
确定所述网页的被访问次数是否小于预设值;
若小于,则发起对所述网页的访问,直至所述网页的被访问次数不小于预设值。
4.根据权利要求1所述的方法,在确定所述网页的第三稳定性值之后,所述方法还包括:
基于所述网页的第三稳定性值,确定所述网页所属站点的第四稳定性值。
5.一种基于权利要求1-4中任一项所述的网页稳定性的检测方法进行搜索结果排序的方法,包括:
确定搜索结果中各网页的第三稳定性值;
基于所述第三稳定性值,对所述搜索结果中各网页进行排序。
6.一种基于权利要求4所述的网页稳定性的检测方法进行数据爬取的方法,包括:
确定站点的第四稳定性值;
基于所述第四稳定性值,对所述站点进行爬取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110742489.X/1.html,转载请声明来源钻瓜专利网。