[发明专利]具备页面渲染功能的网络爬虫系统及其实现方法有效
申请号: | 201010590806.2 | 申请日: | 2010-12-10 |
公开(公告)号: | CN102054028A | 公开(公告)日: | 2011-05-11 |
发明(设计)人: | 黄斌 | 申请(专利权)人: | 黄斌 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具备 页面 渲染 功能 网络 爬虫 系统 及其 实现 方法 | ||
技术领域
本发明涉及一种具备页面渲染功能的网络爬虫系统,同时也涉及该网络爬虫系统实现页面渲染功能的方法,属于网络资源搜索技术领域。
背景技术
据有关媒体报导,美国谷歌(google)公司在2010年10月6日推出了搜索结果可视预览功能,允许用户在搜索结果列表中直接以缩略图的形式预览每个页面。据谷歌公司有关人士介绍,“有时用户点击一个搜索结果,却发现出现的页面与其想要的页面相差甚远。于是用户只能点击返回,再去点击另一个搜索结果。这种体验很差。我们试图以提供预览的方式避免这种情况的发生。”为此,用户将在搜索结果右侧看到一个放大镜标志,点击放大镜就可以看到这个页面的缩略图预览。用户还可以向下滑动,查看所有搜索结果的预览图。
为了满足搜索结果可视预览的要求,谷歌公司将存储几十亿个流行度较高的网页的缩略图。对于流行度较低的页面,谷歌公司也通过技术手段在不到十分之一秒的时间内生成缩略图。但是,满足上述要求所付出的硬件成本和软件成本都是巨大的。
目前还有一些别的技术手段可以实现页面预览功能,例如使用CGI程序,抓取浏览器的图像区,利用浏览器的绘图功能生成图片。另外,在专利申请号为200910221416.5的中国发明专利申请中,公开了一种利用图像分析对互联网进行自动爬行的方法和装置。对网页组件进行视觉识别的示例性方法包括以下步骤:在网络浏览器中渲染网页以生成图像,利用机器对图像的至少一个部分进行视觉分析以检测包含可能的网页组件的区域。该示例性方法还包括步骤:自动确定检测到的网页组件的类型,并存储该网页组件类型和网页部分的位置。
但是,现有技术中并没有利用网络爬虫系统实现页面预览功能的解决方案。网络爬虫(Web Crawler)又称为网页蜘蛛(Web Spider)、网络机器人(Web Robot),是按照一定的规则自动抓取互联网信息的程序或者脚本组成的系统。它的工作过程可以简述如下:从预先指定的初始URL集(也称种子集)出发,从中选择一个URL,获得该URL所指向的页面,再从这个已经访问的页面中解析出新的URL,并对这些刚刚提取的URL进行分析比较,判断哪些URL还没有被访问过并将它们放入到等待访问的队列,再按照指定的策略从该等待访问队列取出下一个URL继续访问。如此重复,直到等待访问队列为空或满足停止访问条件,其过程与有向图的遍历非常相似。访问的过程中,将该网页的文本内容保存在搜索引擎的数据库中进行分析处理。
在这些网络爬虫系统的运行过程中,普遍只将网页的内容按网页文件进行分析,抽取其中的内容。一些网络爬虫系统则更进一步,对这些内容进行简单的处理,如加以语义标注等,方便搜索引擎进行整理排序。但是,这些网络爬虫系统普遍不具备页面渲染的功能,因此并不能方便地实现搜索结果页面预览功能。
发明内容
本发明所要解决的首要技术问题是提供一种具备页面渲染功能的网络爬虫系统。
本发明所要解决的另外一个技术问题是提供该网络爬虫系统实现页面渲染功能的方法。
为实现上述的发明目的,本发明采用下述的技术方案:
一种具备页面渲染功能的网络爬虫系统,其特征在于:
所述网络爬虫系统包括多个信息采集器、页面分析器、URL过滤器、页面过滤器、URL管理器、图片生成器、URL库和页面库;其中,
所述信息采集器位于所述网络爬虫系统的底层,与互联网直接进行交互以获取Web页面,所述页面分析器与所述信息采集器进行连接,一方面从页面内容中解析出带有链接标记的URL,交给所述URL过滤器解析;另一方面将页面内容解析为文本格式,交给所述页面过滤器处理;
所述URL过滤器对URL进行限定站点范围和主题的过滤之后,存入URL库中;所述页面过滤器进行页面内容的冗余检测后,将检测后的页面存入页面库中;
所述图片生成器连接所述URL库,针对所述URL库中存储的URL生成页面对应的图片。
其中,所述信息采集器从信息源出发,通过http协议请求,下载Web页面,所述页面分析器分析页面并提取链接,然后所述信息采集器再以迭代的方式访问网络。
所述信息采集器采用图的遍历算法搜索Web页面。
所述URL过滤器利用扩展元数据的语义信息,对从Web页面中提取出的URL进行主题相关性预测,按照相关链接进行采集、不相关链接直接丢弃的原则进行剪枝处理。
所述URL管理器一方面从所述URL库中获得URL列表,进行任务排列后分配给多个信息采集器;另一方面从多个信息采集器中获得新的URL列表,将这些列表保存到所述URL库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黄斌,未经黄斌许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010590806.2/2.html,转载请声明来源钻瓜专利网。