[发明专利]一种网页爬取的方法、装置、存储介质及电子设备有效
申请号: | 201811467095.2 | 申请日: | 2018-12-03 |
公开(公告)号: | CN109582850B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 陈耽思 | 申请(专利权)人: | 金瓜子科技发展(北京)有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 方法 装置 存储 介质 电子设备 | ||
1.一种网页爬取的方法,其特征在于,包括:
获取目标网页的样式数据,所述样式数据为在所述目标网页的源数据中基于反爬策略生成的数据;
判断是否存在与所述样式数据相匹配的样式数据与真实数据之间的对应关系,在存在与所述样式数据相匹配的样式数据与真实数据之间的对应关系时,根据预先生成的样式数据与真实数据之间的对应关系确定与所述样式数据对应的真实数据,并将所述样式数据替换为相应的真实数据;其中,所述样式数据与真实数据之间的对应关系表示某一样式数据实际对应的真实数据;
确定所述目标网页所有的真实内容,所述真实内容包括与所述样式数据对应的真实数据;
其中,所述判断是否存在与所述样式数据相匹配的样式数据与真实数据之间的对应关系包括:
确定所述样式数据的文件名称,并判断是否存在与所述文件名称相匹配的历史文件名称,所述历史文件名称为解析过的历史样式数据的文件名称;
在存在相匹配的历史文件名称时,确定存在与所述样式数据相匹配的样式数据与真实数据之间的对应关系。
2.根据权利要求1所述的方法,其特征在于,在所述获取目标网页的样式数据之后,还包括:
在不存在与所述样式数据相匹配的样式数据与真实数据之间的对应关系时,建立与所述样式数据相匹配的样式数据与真实数据之间的对应关系。
3.根据权利要求1所述的方法,其特征在于,与所述样式数据相匹配的样式数据与真实数据之间的对应关系为:有效历史样式数据与基于所述有效历史样式数据的解析结果所确定的真实数据之间的对应关系;所述有效历史样式数据为与所述文件名称相匹配的历史文件名称所对应的历史样式数据。
4.根据权利要求1所述的方法,其特征在于,所述判断是否存在与所述文件名称相匹配的历史文件名称包括:
将所述文件名称和历史文件名称分别分为多个子字符串,并确定所述文件名称的每个子字符串在所述文件名称中的排列顺序、以及所述历史文件名称的每个子字符串在所述历史文件名称中的排列顺序;
从最后顺位的子字符串开始,判断所述文件名称的子字符串与所述历史文件名称的相对应的子字符串是否相同,在二者不同时确定所述文件名称与所述历史文件名称不匹配;
在二者相同时,倒序确定下一顺位的子字符串,并重复上述判断所述文件名称的子字符串与所述历史文件名称的相对应的子字符串是否相同的过程,直至确定所述文件名称与所述历史文件名称不匹配、或者确定所述文件名称的所有子字符串与所述历史文件名称的所有子字符串全部相匹配;在确定所述文件名称的所有子字符串与所述历史文件名称的所有子字符串全部相匹配时,确定所述文件名称与所述历史文件名称相匹配。
5.根据权利要求2所述的方法,其特征在于,所述建立与所述样式数据相匹配的样式数据与真实数据之间的对应关系包括:
创建本地网页,并将所述目标网页的样式数据加载至所述本地网页中;
获取所述本地网页的网页图像,并识别所述网页图像,确定所述网页图像中的真实数据;
建立所述样式数据与识别出的相应的真实数据之间的对应关系。
6.根据权利要求2所述的方法,其特征在于,在所述建立与所述样式数据相匹配的样式数据与真实数据之间的对应关系之后,还包括:
将与所述样式数据相匹配的样式数据与真实数据之间的对应关系存储至数据库中。
7.根据权利要求1所述的方法,其特征在于,所述样式数据包括文字样式数据和/或图片样式数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金瓜子科技发展(北京)有限公司,未经金瓜子科技发展(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811467095.2/1.html,转载请声明来源钻瓜专利网。