[发明专利]一种自适应网络爬虫系统及其数据获取方法有效
申请号: | 201710846722.2 | 申请日: | 2017-09-19 |
公开(公告)号: | CN107861974B | 公开(公告)日: | 2018-12-25 |
发明(设计)人: | 李铮;房留凯;胡玲;吕光增;徐明辉;曹希凤;蓝春倩;苏鹏程;马瑞刚;姚宁;柳超 | 申请(专利权)人: | 北京金堤科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;李相雨 |
地址: | 100086 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自适应 网络 爬虫 系统 及其 数据 获取 方法 | ||
1.一种自适应网络爬虫系统的数据获取方法,其特征在于,包括:
在目标网站进行改版前,提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式,并基于所提取的关键词,形成第一数据集合;
在无法对所述目标网页进行数据提取时,确定所述目标网站已进行改版,并根据当前所述目标网页的统一资源定位符URL链接,在当前目标网页预设深度的所有页面中,查找与所述关键标签格式相同或者相似的标签格式,提取出所查找到的标签格式中所有标签中的文字内容,形成第二数据集合;
判断所述第一数据集合与所述第二数据集合的信息是否相似;
若判断获知所述第一数据集合与所述第二数据集合的信息相似,则在当前目标网页中搜索目标关键词下的内容标签区域,以获得所需内容数据,其中,所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素。
2.根据权利要求1所述的方法,其特征在于,在当前目标网页中所述目标关键词下的内容标签区域,以获得所需内容数据之后,所述方法还包括:
将获得的所需内容数据与数据库在目标网站进行改版前所抓取存入的数据进行对比,判断获得的所需内容数据中的每个数据是否是正确的数据类型;
若获得的所需内容数据中的某一数据不是正确的数据类型,则进行报错。
3.根据权利要求1所述的方法,其特征在于,所述判断所述第一数据集合与所述第二数据集合的信息是否相似,包括:
根据预先建立的目标特定领域的近义词对库,将所述第一数据集合中的每一元素与所述第二数据集合中的每一元素分别进行比对;
若所述第一数据集合与所述第二数据集合中相同或相似的元素个数大于预设阈值,则确定所述第一数据集合与所述第二数据集合的信息相似。
4.根据权利要求3所述的方法,其特征在于,所述预设阈值为所述第一数据集合中元素个数的一半或2/3。
5.根据权利要求1所述的方法,其特征在于,所述关键标签格式为:在<tr>和</tr>之间包含<td和</td>或者<th和</th>,并且在<td和</td>之间或者<th和</th>之间包含与关键词相关的文字内容。
6.一种自适应网络爬虫系统,其特征在于,包括:
提取模块,用于在目标网站进行改版前,提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式,并基于所提取的关键词,形成第一数据集合;
抓取模块,用于在无法对所述目标网页进行数据提取时,确定所述目标网站已进行改版,根据当前所述目标网页的统一资源定位符URL链接,在当前目标网页预设深度的所有页面中,查找与所述关键标签格式相同或者相似的标签格式,提取出所查找到的标签格式中所有标签中的文字内容,形成第二数据集合;
第一判断模块,用于判断所述第一数据集合与所述第二数据集合的信息是否相似;
搜索模块,用于若判断获知所述第一数据集合与所述第二数据集合的信息相似,则在当前目标网页中搜索目标关键词下的内容标签区域,以获得所需内容数据,其中,所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括:
第二判断模块,用于将获得的所需内容数据与数据库在目标网站进行改版前所抓取存入的数据进行对比,判断获得的所需内容数据中的每个数据是否是正确的数据类型;
报错模块,用于若获得的所需内容数据中的某一数据不是正确的数据类型,则进行报错。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金堤科技有限公司,未经北京金堤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710846722.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:角度成型折弯机
- 下一篇:室内全景数据的采集方法及装置、设备与计算机可读介质