[发明专利]具备页面渲染功能的网络爬虫系统及其实现方法有效
申请号: | 201010590806.2 | 申请日: | 2010-12-10 |
公开(公告)号: | CN102054028A | 公开(公告)日: | 2011-05-11 |
发明(设计)人: | 黄斌 | 申请(专利权)人: | 黄斌 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具备 页面 渲染 功能 网络 爬虫 系统 及其 实现 方法 | ||
1.一种具备页面渲染功能的网络爬虫系统,其特征在于:
所述网络爬虫系统包括多个信息采集器、页面分析器、URL过滤器、页面过滤器、URL管理器、图片生成器、URL库和页面库;其中,
所述信息采集器位于所述网络爬虫系统的底层,与互联网直接进行交互以获取Web页面,所述页面分析器与所述信息采集器进行连接,一方面从页面内容中解析出带有链接标记的URL,交给所述URL过滤器解析;另一方面将页面内容解析为文本格式,交给所述页面过滤器处理;
所述URL过滤器对URL进行限定站点范围和主题的过滤之后,存入URL库中;所述页面过滤器进行页面内容的冗余检测后,将检测后的页面存入页面库中;
所述图片生成器连接所述URL库,针对所述URL库中存储的URL生成页面对应的图片。
2.如权利要求1所述的网络爬虫系统,其特征在于:
所述信息采集器从信息源出发,通过http协议请求,下载Web页面,所述页面分析器分析页面并提取链接,然后所述信息采集器再以迭代的方式访问网络。
3.如权利要求1或2所述的网络爬虫系统,其特征在于:
所述信息采集器采用图的遍历算法搜索Web页面。
4.如权利要求1所述的网络爬虫系统,其特征在于:
所述URL过滤器利用扩展元数据的语义信息,对从Web页面中提取出的URL进行主题相关性预测,按照相关链接进行采集、不相关链接直接丢弃的原则进行剪枝处理。
5.如权利要求1所述的网络爬虫系统,其特征在于:
所述URL管理器一方面从所述URL库中获得URL列表,进行任务排列后分配给多个信息采集器;另一方面从多个信息、采集器中获得新的URL列表,将这些列表保存到所述URL库中。
6.一种如权利要求1所述的网络爬虫系统实现页面渲染功能的方法,其特征在于包括如下步骤:
(1)生成Web页面的开始标签;
(2)渲染页面模板中的内容,其中每进入一个标签,都依次调用所述标签的各个生命周期阶段;
(3)渲染Web页面中的体;
(4)生成Web页面的结束标签;
(5)清除数据。
7.如权利要求6所述的网络爬虫系统实现页面渲染功能的方法,其特征在于:
所述步骤(2)中,调用所述标签的各个生命周期阶段是指从上层标签到下层标签的递归入口,只有下层标签渲染结束,进行调用的组件才继续后续阶段的操作。
8.如权利要求6所述的网络爬虫系统实现页面渲染功能的方法,其特征在于:
所述步骤(4)中,生成结束标签的操作由控制内嵌标签执行流程的操作代替。
9.一种如权利要求1所述的网络爬虫系统实现页面渲染功能的方法,其特征在于包括如下步骤:
当发现一个图片标签引用了一张图片时,向服务器发出请求;此时继续渲染后面的代码,服务器返回所述图片的文件,然后重新渲染这部分代码。
10.如权利要求9所述的网络爬虫系统实现页面渲染功能的方法,其特征在于:
当发现存在一个JavaScript代码的<script>标签时,执行语句,重新渲染部分代码,然后将渲染的结果生成图片。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黄斌,未经黄斌许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010590806.2/1.html,转载请声明来源钻瓜专利网。