[发明专利]网页数据定向抓取方法有效

专利信息
申请号: 201010612405.2 申请日: 2010-12-29
公开(公告)号: CN102043862A 公开(公告)日: 2011-05-04
发明(设计)人: 史寿伟;李龙;向涛;李友良 申请(专利权)人: 重庆新媒农信科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 重庆博凯知识产权代理有限公司 50212 代理人: 张先芸
地址: 401121 重庆市北部新区高新*** 国省代码: 重庆;85
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网页 数据 定向 抓取 方法
【说明书】:

技术领域

发明涉及网络技术和搜索引擎技术领域,特别涉及一种网页数据定向抓取方法。 

  

背景技术

随着网络技术的迅速发展,万维网成为当今传输数量最大、传输效率最高的信息数据传输载体,如何有效的从万维网中获取需要的信息数据以及对海量信息的利用,成为网络技术、通信技术领域研究的热点课题。 

网络蜘蛛(也称为网络爬虫、网络机器人),即按照既定程序从万维网中抓取网页数据的软件技术,成为从万维网中获取需要的信息数据的主要应用技术;这里所述的网页数据,是指用于呈现于网页中、为用户提供有效信息的标题、文本、图像、链接、表格等各类型的数据。例如百度、谷歌等搜索服务网站的搜索引擎,就需要依靠网络蜘蛛从万维网中抓取各种网站的网页数据。但是,搜索引擎应用的网络蜘蛛对其抓取的网页数据是不加区分和鉴别的,需要依靠用户自己定义检索的范围并确定最终要获取的数据,也就是说获取网页数据的定向操作需要人为完成。随着社会分工的专业化,人们对网络信息服务的要求不断提高,很多情况下人们需要一种能够对其感兴趣的网页数据进行自动定向抓取的数据抓取技术,而现有搜索引擎所应用的网络蜘蛛并不能满足这样的要求。 

利用现有的网络技术条件,实现网页数据的定向抓取,可以通过以下三种策略: 

第一种:与网页数据的网站经营方进行商务沟通,请该网站经营方提供专用的网页数据抓取接口;

第二种:如果网页数据的网站经营方支持RSS(Really Simple Syndicatio,简易共享内容聚合)聚合,则可以通过RSS接口通过共享定向抓取网页数据;

第三种:通过一种具有定向功能的特殊网络蜘蛛,直接从网页内容中抓取网页数据。

上述的前两种方式需要网页数据获取方与网站经营方取得商业合作才能够得以实现,对网页数据获取方具备较高的商业公关能力,而且这两种方式受到商业合作往来的局限,不能提供出商业合作方以外的网页数据定向抓取,应用领域非常有限。第三种方式对网页数据获取方的商业公关要求较低,只要具备相应的定向抓取技术,就能够对万维网中的任意网页数据进行定向抓取,而不受到商业公关的局限,因此适用的网页数据定向抓取技术成为第三种方式实现的关键和难题。 

  

发明内容

针对现有技术中存在的上述不足,本发明提供一种网页数据定向抓取方法,解决网页数据的定向获取问题。 

为实现上述目的,本发明采用了如下技术手段: 

作为一种方案,网页数据定向抓取方法,包括以下步骤:

1)根据待抓取的网页数据在网页文件中具有的数据结构特征以及网页文件的源代码语法规则,编译由正则表达式构建的数据匹配模型;

2)根据URL地址获取包含待抓取网页数据的网页文件,解析所述网页文件的源代码;

3)用所述数据匹配模型对所述网页文件的源代码进行数据匹配,依次获取相匹配的部分源代码;

4)从所述相匹配的部分源代码中屏蔽数据结构特征部分,提取出待抓取的网页数据;

5)对提取出的网页数据进行存储处理。

在第一种方案中,所述由正则表达式构建的数据匹配模型是由结构匹配字符和捕获组构成;所述结构匹配字符用于匹配待抓取的网页数据的数据结构特征;所述捕获组用于匹配待抓取的网页数据。 

在第一种方案中,所述步骤3)中“从所述相匹配的部分源代码中屏蔽数据结构特征部分,提取出待抓取的网页数据”,是通过正则表达式语法规则中的捕获组对所述相匹配的部分源代码中待抓取的网页数据进行捕获并存储于缓存区中,从而屏蔽结构匹配字符匹配的数据结构特征部分;再从缓存区中提取待抓取的网页数据。 

在第一种方案中,所述待抓取的网页数据有多组,每组待抓取的网页数据匹配于数据匹配模型中的一个捕获组,且不同的捕获组通过不同的编号或命名加以区分识别。 

在第一种方案中,所述步骤4)中“对提取出的网页数据进行存储处理”,是计算提取出的网页数据的MD5值,并查找数据库中是否存在相同的MD5值;若是,则放弃存储操作;否则,将提取出的网页数据连同其MD5值一起存入数据库,并建立该网页数据与其MD5值的对应关系。 

作为另一种方案,网页数据定向抓取方法,包括以下步骤: 

A)将待抓取的网页数据在网页文件中具有的数据结构特征拆分为N级,划分N级定位域;每一级定位域包含至少一个待抓取的网页数据的数据结构特征,以及除数据结构特征部分的定位提取部分;其中,第N级定位域的定位提取部分即为待抓取的网页数据,N≥2;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆新媒农信科技有限公司,未经重庆新媒农信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010612405.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top