[发明专利]同话题定位跟踪式论坛爬虫系统无效
申请号: | 200810180824.6 | 申请日: | 2008-11-25 |
公开(公告)号: | CN101436197A | 公开(公告)日: | 2009-05-20 |
发明(设计)人: | 杨溥;郭军;徐蔚然 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 话题 定位 跟踪 论坛 爬虫 系统 | ||
技术领域
本发明涉及网络数据采集系统,尤其涉及一种同话题定位跟踪式论坛爬虫系统。
背景技术
随着电脑技术的发展普及和互联网的迅速崛起,人们渐渐从传统的交流沟通形式中抽身而出,利用大量的时间和精力投入到新兴的交流沟通形式-------论坛中。论坛是电脑和互联网的产物,它具有着很多优点,如实时性,广泛性等等。正是这些显著的优点使得人们在论坛上各抒己见,讨论热点问题,交流技术和心得等等。因而论坛上有许多十分重要的信息,这些信息通常难以在论坛以外的地方获得。由于论坛与其他网站显著不同的组织结构方式,如每个话题的强烈的连续性和每个用户信息的网页重复展示性等等,加之巨大的访问量和巨大的广告投放量,使得论坛在拥有独到巨大重要信息的同时还受到巨大冗余信息的困扰。在当今这个讲究效率的时代,人们不可能有时间去一页一页翻找关于这个热点话题的有用的信息,因而人们就理所当然的将目光投向一般的搜索引擎,以期望能够利用它有效高质量地便捷检索到需要的信息。但是因特网上的一般搜索引擎对于检索普通结构的网站,典型的如门户网站的能力较强但检索论坛这种特殊结构的网站的能力很弱。即使一些一般搜索引擎能够实现检索论坛,但是也是将论坛简化为普通的网站处理,如强行将每个话题的强烈的连续性割裂等等,这样使得论坛的优越性被扼杀。为了解决这一问题,继而人们又想到了在最小的代价下将一般的搜索引擎转变为针对论坛特殊结构的搜索引擎。而在这个转变中,人们发现除了爬虫系统的难以简单移植外,搜索引擎系统的其他部分大同小异,因此论坛爬虫系统成为论坛搜索引擎的核心和焦点。爬虫系统的论坛特殊结构适应性受到越来越多的学者的关注。
由于论坛特殊结构主要体现在以下四个方面:1.论坛冗余信息多,如发帖人的头像,发帖人的个人信息页面,广告链接等等都是冗余信息;2.论坛内部链接简单化处理,如超链接地址一般不包含完整形式,如为了设计方便省略主机名等等,但爬虫系统对于简单化处理的超链接无法识别;3.论坛讨论同一话题的网页之间有很强的关联度,但一般通用抓取忽略这个重要信息,使得网页凌乱无序;4.爬抓网页单一割裂,难以组织。解决了这些问题能够大大地提高论坛爬抓的效率和质量,进一步降低论坛搜索引擎的开发难度。因而怎样行之有效地解决这些难题成为众多学者关注的焦点问题。因此,本发明针对以上四个不同方面引入四种不同的技术来一一解决。对于冗余信息通过非文本精确过滤器解决;对于内部链接不完整通过超链接补全器解决;对于同一话题的网页之间强关联度通过同话题定位跟踪器解决;对于爬抓网页单一割裂通过统一编号器组织解决。
发明内容
针对现有技术存在的问题,本发明的目的是提供一种能够有效地解决爬虫系统采集论坛数据大量冗余和凌乱无序的问题,从而高效率高质量地抓取论坛数据的爬虫系统。
为达到上述目的,本发明提供一种同话题定位跟踪式论坛爬虫系统,其特征在于包括:
非文本粗略过滤器,用于提取网页中的所有超链接;
非文本精确过滤器,用于过滤去除所有指向不是文本信息的超链接;
超链接补全器,用于修正并且补完整超链接;
纯网页超链接存储库,用于保存网页中所有指向纯文本信息的超链接;
同话题定位跟踪器,用于定位并且跟踪一系列同一话题的网页组;
同话题网页超链接存储库,用于存储在所述同话题定位跟踪器中被定位并且跟踪一系列同一话题的网页组的超链接;
网页组数据下载器,用于下载在所述同话题网页超链接存储库中被超链接指向的网页组;
统一编号器,用于为在所述网页组数据下载器中下载的网页组进行统一分配标识号码;
网页组数据存储库,用于存储在所述网页组数据下载器中下载的网页组;
纯网页超链接供应器,用于向所述非文本粗略过滤器提供需要处理的超链接。
所述系统中,所述同话题定位跟踪器包括:
页面编号自动累加器,用于分析判断当前网页在同一话题中的位置编号,并且自动累加一次位置编号;
同话题网页组队尾判断器,用于分析判断当前网页在同一话题中的位置编号是否为队尾。
本发明的有益效果在于,通过应用本发明所描述的系统,可以有效地解决爬虫系统采集论坛数据大量冗余和凌乱无序的问题;可以为搭建论坛搜索引擎系统的重要组成部分------论坛数据采集系统提供通用可靠的搭建框架;显著降低论坛爬虫系统的开发难度,进一步有效地降低论坛搜索引擎系统开发成本。
结合附图,本发明的其他特点和优点可以从下面通过举例来对本发明的原理进行解释的优选实施方式的说明中变得更清楚。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810180824.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型铝木复合节能门窗
- 下一篇:一种手机与计算机通用的汉字输入法