[发明专利]一种分布式的实时新闻信息采集系统无效
申请号: | 201010599916.5 | 申请日: | 2010-12-22 |
公开(公告)号: | CN102073683A | 公开(公告)日: | 2011-05-25 |
发明(设计)人: | 章毅;彭德中;张蕾;吕建成;张海仙;徐小伟 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 实时 新闻 信息 采集 系统 | ||
技术领域
本发明涉及信息采集技术领域,具体涉及一种分布式的可针对互联网上新闻信息进行实时发现与采集的系统。
背景技术
信息采集领域经常从两个方面来研究采集器的设计:一是信息采集器的系统构架与拓扑结构;二是采集器下载网络资源的方式及任务的分配策略。目前信息采集器的系统构架主要分集中式和分布式两种,但对于采集系统构架的专门研究却不多。集中式的采集器主要应用在智能代理等小系统上,其对性能的要求不高。而分布式的采集器在大型搜索引擎上应用的最多,性能要求较高。分布式主要目的是进行负载的平衡,即将多个采集器同时运行,按IP地址、域名、地理位置等对互联网资源进行划分并下载网页。从本质上看,分布式的采集器多个集中式采集器的划区域运行,并对多个集中式采集器进行协作管理。另外就是采集器以何种方式和何种策略进行资源搜索。对此,目前国内外学者从理论和实践应用上做了许多研究工作。采集器搜索网络资源的方式上主要有两种:一是用元搜索引擎从基本搜索引擎中获得资源清单,然后根据资源清单采集资源:二是设计相对独立的搜索器,根据搜索需求设计采集策略并进行资源分析采集。前者的搜索器结构较简单,主要包括向基本搜索引擎提交查询指令并接收资源清单的连接模块、以及下载资源的下载模块。后者则需要有采集策略控制模块、主题搜索智能代理模块等。
在搜索策略上采用元搜索方式的搜索器直接从基本搜索引擎中获得资源清单,而后只做简单的筛选工作(如:去除广告链接、重复链接和死链接等)便进行资源的采集。其优点是不需要对资源做内容分析和链接结构分析,同时采集的速度相对较快,使资源数据库能较快的达到一定规模;缺点是采集的规模、质量、更新周期决定于所依靠的基本搜索引擎,同时不能对专业资源进行有目的的深度采集。独立设计的搜索器的搜索策略则相对复杂,主要是基于内容相似度或基于Web结构评价的方式获得未采集的链接估算价值,并根据价值的大小选取优先采集的队列。
集中式采集的工作原理是:给定的一组初始种子链接(URL)集合,通过采集器主体程序多线程抓取对应的页面后,对URL对应的html页面进行分析,页面内容提取模块将页面中有用的信息获保存到本地数据库中,链接分析模块将html页面中的的链接提取出来,并经过链接过滤器后,添加到待下载链接库中。下载程序持续下载待下载链接库的链接(URL),直到满足一定的条件时,采集过程结束。采集器在抓取网页数据时,可以将Web上的网页集合看成是一个有向图,从给定的起始URL开始,沿着网页中的链接,按照一定的策略进行。目前常用的采集策略有以下几种:(1)深度优先算法:该算法是指网络采集器会从选定的一个超链接开始,按照一条线路,一个一个链接访问下去,直到达到这条线路的叶子节点,即不包含任何超链接的HTML文件,处理完这条线路之后再转入下一个起始页,继续访问新的起始页面所包含的链接中的一条,直到到达叶子节点。这个方法有个优点是采集器在设计的时候比较容易。(2)广度优先算法:广度优先算法是指采集器优先抓取起始网页中包含链接的所有网页,然后再选择其中的一个链接网页,继续抓取在这个网页中链接的所有网页。这种搜索方法是实现通用网络爬虫的最佳方法,因为它的特点是易于实现,并且能够避免陷进一个无穷尽的深层分支中去,可以让采集器并行工作,从而提高运行效率。(3)启发式搜索算法:源于人工智能,即先通过在线获得的领域知识评价待访问链接的价值,借以推断信息资源的分布情况,然后按一定的原则选择价值最大的链接进行下一步的搜索,找到到达目标节点的最佳路径,删除不好节点,保留那些好的节点,该算法主要用于主题信息采集器的设计中。
分布式信息采集器的工作方式:随着互联网上Web信息的爆炸性增长,网络信息采集系统的速度越来越不能满足实际应用的需要。即使大型的信息采集系统对Web的覆盖率也只有30-40%,刷新一遍已经采集的页面常常需要数周到几个月的时间。解决这一问题的直接办法是升级信息采集器的硬件,采用处理能力更强的计算机系统,然而这种方法的扩展性有限,性价比也不高。因而人们找了一个更好的选择,用分布式方式来进行网页信息采集。分布式网络采集系统要比集中式网络采集系统有更高的性能,是今后大规模网络采集器发展的一个重要方向。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010599916.5/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置