[发明专利]处理爬取网页的方法和装置有效

申请号：	201611089740.2	申请日：	2016-11-30
公开（公告）号：	CN108132948B	公开（公告）日：	2021-02-26
发明（设计）人：	赵一飞	申请（专利权）人：	北京国双科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951
代理公司：	北京康信知识产权代理有限责任公司 11240	代理人：	韩建伟;张永明
地址：	100083 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种处理爬取网页的方法和装置。其中，该方法包括：确定是否存在待验证的网页的标识信息；根据待验证的网页的标识信息爬取得到网页页面之后，校验爬取得到的网页页面；在爬取得到的网页页面校验通过的情况下，确定待验证的网页爬取成功；将爬取成功的待验证的网页的标识信息保存至过滤器服务。本发明解决了现有技术中在防止爬虫系统重复爬取网页时，爬取内容校验不通过但网页无法被再次爬取的技术问题。
搜索关键词：	处理网页方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种处理爬取网页的方法，其特征在于，包括：确定是否存在待验证的网页的标识信息；根据所述待验证的网页的标识信息爬取得到网页页面之后，校验所述爬取得到的网页页面；在所述爬取得到的网页页面校验通过的情况下，确定所述待验证的网页爬取成功；将爬取成功的所述待验证的网页的标识信息保存至过滤器服务。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司，未经北京国双科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201611089740.2/，转载请声明来源钻瓜专利网。

专利分类

免登录下载普通用户下载升级VIP会员，免费下载

专利文献下载