[发明专利]网页数据抓取过滤方法有效

申请号：	201110448055.5	申请日：	2011-12-29
公开（公告）号：	CN102567521A	公开（公告）日：	2012-07-11
发明（设计）人：	金炜杰	申请（专利权）人：	维构（上海）文化传媒有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	上海申汇专利代理有限公司 31001	代理人：	金碎平
地址：	201907 上海市嘉***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页数据抓取过滤方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于计算机数据库技术领域，尤其涉及一种网页数据抓取过滤方法。

背景技术

网页抓取和数据抽取技术有很悠久的发展历史，通过各种技术手段实现网页内容的采集目的，而且，在每个计算技术发展阶段，人们都在尝试使用更先进的技术和编程语言实现更强大的网站内容采集工具，现有常见的网页数据抓取方法如下：

1、使用网络爬虫技术实现网页抓取和数据抽取的方法

网络爬虫即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

对于搜索引擎来说，要抓取互联网上所有的网页几乎是不可能的，从目前公布的数据来看，容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈，无法遍历所有的网页，有许多网页无法从其它网页的链接中找到；另一个原因是存储技术和处理技术的问题，如果按照每个页面的平均大小为20K计算（包含图片），100亿网页的容量是100×2000G字节，即使能够存储，下载也存在问题（按照一台机器每秒下载20K计算，需要340台机器不停的下载一年时间，才能把所有网页下载完毕）。同时，由于数据量太大，在提供搜索时也会有效率方面的影响。因此，许多搜索引擎的网络蜘蛛只是抓取那些重要的网页，而在抓取的时候评价重要性主要的依据是某个网页的链接深度。

在抓取网页的时候，网络蜘蛛一般有两种策略：广度优先和深度优先。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。这是最常用的方式，因为这个方法可以让网络蜘蛛并行处理，提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始，每个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。

由于不可能抓取所有的网页，有些网络蜘蛛对一些不太重要的网站，设置了访问的层数。例如，一个网站中A为起始网页，属于0层，B、C、D、E、F属于第1层，G、H属于第2层，I属于第3层。如果网络蜘蛛设置的访问层数为2的话，网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到，另外一部分不能被搜索到。对于网站设计者来说，扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。

网络蜘蛛在访问网站网页的时候，经常会遇到加密数据和网页权限的问题，有些网页是需要会员权限才能访问。当然，网站的所有者可以通过协议让网络蜘蛛不去抓取，但对于一些网站，他们希望搜索引擎能搜索到他们的内容，但又不能完全免费的让搜索者查看，这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取，从而提供搜索。而当搜索者点击查看该网页的时候，同样需要搜索者提供相应的权限验证。

2、使用微软技术实现网站内容抓取和数据抽取的方法

如：asp.net 网页抓取的方法；传统ASP网页抓取数据的一般方法； Screen Scraping in C#即使用C#填写Form表达，post后抓取网页的方法。

3、使用Java技术实现网站内容抓取和数据抽取的方法

如：使用Nutch的两种Html parser工具（NekoHTML和TagSoup）实现html的提取的方法；JSP实现网页抓取的方法；使用Java实现批量提取网页数据的的方法，没有采用正则表达式方法，而是基于DOM的方法。

4、使用PHP技术实现网站内容抓取和数据抽取的方法

5、使用Delphi技术实现网站内容抓取和数据抽取的方法

如：用Delphi 7 和 Indy 的 TidHttp 控件实现网站内容抓取和数据抽取。

6、使用Python技术实现网站内容抓取和数据抽取的方法

如：使用有名的Beautiful Soup库解析HTML文档，还使用了urllib2库抓取网页，使用mechanize库模仿浏览器行为；使用Web应用自动测试程序：Selenium和Windmill提起JavaScript代码管理的内容。

7、使用Flex技术实现网站内容抓取和数据抽取的方法

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于维构（上海）文化传媒有限公司，未经维构（上海）文化传媒有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110448055.5/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]网页数据抓取过滤方法有效

专利文献下载