[发明专利]一种提取网页数据的方法和Web爬虫系统无效
申请号: | 200710119322.8 | 申请日: | 2007-07-20 |
公开(公告)号: | CN101089856A | 公开(公告)日: | 2007-12-19 |
发明(设计)人: | 李沫南 | 申请(专利权)人: | 李沫南 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同汇友专利事务所 | 代理人: | 张雅军;高云瑞 |
地址: | 100101北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提取 网页 数据 方法 web 爬虫 系统 | ||
技术领域
本发明一般涉及数据分析,更具体的说,涉及利用Web爬虫(Crawler)从网页中提取数据的方法与系统。
背景技术
随着计算机和互联网技术的发展,搜索引擎已经成为Web客户机(例如,计算机)的使用者获取信息的重要方式。一般,用户通过向搜索引擎提供其感兴趣的关键字,由搜索引擎根据用户提供的关键字生成页面,来帮助用户发现和访问新的“统一资源地址”(URL)。为了达成这一目标,搜索引擎通过索引器检索事先建立好的索引数据结构生成提供给用户的关键字结果页面,并使用Web爬虫(或称之为“蜘蛛”、“机器人”)定期的访问通过URL定位的网页资源,提取出其中的文本信息和其他相关网页属性,并存储该信息以使得索引器可以处理被检索的数据。前述的索引器读取这些文档,并根据每个文档所包含的这些关键字和该文档的其他属性来创建有优先级的索引。不同的搜索引擎通常使用专用算法来建立索引,以便于查询返回有意义的结果。
因此,Web爬虫对于搜索引擎的操作而已至关重要。但是,现有的Web爬虫仅能提取出Web页面中的纯文字信息,这种技术限制导致了很多搜索引擎优化(SEO)技巧的产生,例如在网页中嵌入浏览者不可见的文本,或者根据爬虫提供的身份标识(UserAgent),进行特殊处理,典型的,当对方网站发现是搜索引擎爬虫时,提供一种页面数据,发现是一般的浏览器访问时,提供一套页面;此外,由于将网页整体作为一整体文本文件,在处理过程中丢失了网页元素位置信息所隐含的语义信息,导致在搜索过程中很难提取出有语义信息的数据项。以一个工作相关的垂直搜索网站,地点是其搜索内容中重要的维度,而传统的爬虫只能将网页作为一个文本文件,导致很难将工作地点的信息与其他网页中出现的表示地点的名词用普遍适用的方法分离;
额外的,随着Web技术的发展,以AJAX(Asynchronous JavaScript+XML)为代表的脚本动态网页技术得到了越来越多的广泛的应用。AJAX技术通过JavaScript脚本在Web客户端的Web页面处理部件(一般称之为“浏览器”)中执行,在脚本中通过操作“文档对象模型”DOM以实现动态修改网页内容的效果。现有的爬虫无法获取由脚本动态生成的网页内容。
由此可见,提供一种通用的支持AJAX技术的提取网页数据的方法和Web爬虫系统对于改进搜索引擎的用户体验,提高搜索引擎的查全率有帮助。
发明内容
本发明的目的,在于为搜索引擎系统或其他由Web页面提取需求的系统,提供通用的数据提取方法,用于解决现有Web爬虫系统无法抓取以AJAX为代表的使用脚本生成网页内容的网页。同时,本发明公开的方法和系统还可以用于数据标引,这项技术主要应用在为某些特定Web内容提供的搜索引擎,例如用于检索工作职位信息的搜索引擎等。
为提供对本发明的一些方面的基本理解,下文呈现了本发明的简化的描述。此描述不是本发明的广泛的纵览。它并不意在识别本发明的关键/紧要的部分或勾画出本发明的范围。它唯一的目的是:用简化的形式来呈现本发明的一些概念,作为以后提出的更加详细的说明的序言。
本发明一般涉及数据分析,更具体的说,涉及用于可处理DOM模型和脚本的Web爬虫来从联网系统提取数据的方法和系统。
本发明所述其特征在于,包括两大部件,其中:
第一部件,用于向第二部件提供数据提取任务,并接收第二部件的数据提取任务的执行结果;
第二部件,用于与网页服务器通信,获取网页数据,并通过操作DOM模型提取数据,并对提取到的数据项进行描述,将所属的提取到的数据与对其的描述发送给第一部件。
本发明中的第二部件包括:用于解析网页文件的解析器101、用于构造网页DOM(文档对象模型)的构造器102、用于执行网页中包含脚本的执行装置103、用于执行数据提取代码的执行装置104,以及用于存储提取出的数据的装置105;
本发明中的第二部件可以是浏览器。
本发明所述的数据提取方法还包括:通过特定的URL(统一资源地址,下同)发现前述URL适用的数据提取代码。在本发明的一个实施例中,前述的数据提取代码在网页源文件中指明;在本发明的另一个实施例中,前述数据提取代码通过公开其适用于何种类型的URL的正则表达式,通过前述的正则表达式的匹配结果确定前述URL适用的数据提取代码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于李沫南,未经李沫南许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710119322.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置