[发明专利]基于互联网系统的分布式信息抓取方法有效
申请号: | 201110206063.9 | 申请日: | 2011-07-22 |
公开(公告)号: | CN102902669A | 公开(公告)日: | 2013-01-30 |
发明(设计)人: | 吴志祥;张海龙;马和平;王专;吴剑;郭凤林;王晓钟;庞绍进 | 申请(专利权)人: | 同程网络科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 陈忠辉 |
地址: | 215021 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于互联网系统的分布式信息抓取方法,将爬虫分布在两台或是两台以上的机器上,按照定制的管理机制同时负责抓取网络上的信息,由中央主机控制各抓取机器的抓取方向,然后将各抓取机器得到的数据进行整理汇总,形成有用的信息或是数据,放到索引库或是数据库中,其特点是:爬虫在同一个局域网里运行,通过高速网络连接相互通信;所述的爬虫通过同一个网络去访问外部互联网,下载网页;所有的网络负载都集中在爬虫所在的那个局域网的出口上;爬虫工作方式包括主从模式、自治模式与混合模式。由此,更方便的网络抓取,信息抓取速度快,效率高,容错性好。同时,升级方便,方便维护。再者可以自由添加减少爬虫机器。 | ||
搜索关键词: | 基于 互联网 系统 分布式 信息 抓取 方法 | ||
【主权项】:
基于互联网系统的分布式信息抓取方法,将爬虫分布在两台或是两台以上的主机上,按照定制的管理机制同时负责抓取网络上的信息,由中央主机控制各抓取机器的抓取方向,然后将各抓取机器得到的数据进行整理汇总,形成有用的信息或是数据,放到索引库或是数据库中,其特征在于:所述的爬虫在同一个局域网里运行,通过高速网络连接相互通信;所述的爬虫通过同一个网络去访问外部互联网,下载网页;所有的网络负载都集中在爬虫所在的那个局域网的出口上;所述的爬虫工作方式包括主从模式、自治模式与混合模式。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同程网络科技股份有限公司,未经同程网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110206063.9/,转载请声明来源钻瓜专利网。