[发明专利]一种论坛回帖增量采集方法及系统有效
申请号: | 201010618393.4 | 申请日: | 2010-12-22 |
公开(公告)号: | CN102567407A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 吴新丽;杨建武 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天悦专利代理事务所(普通合伙) 11311 | 代理人: | 田明;任晓航 |
地址: | 100871 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 论坛 回帖 增量 采集 方法 系统 | ||
技术领域
本发明属于网络信息采集技术领域,具体涉及一种论坛回帖增量采集方法及系统。
背景技术
随着互联网的出现,尤其网络论坛、网络社区的广泛开设,使得全世界范围的人群都可以在一起自由地发表、交流各种观点。中国的网络论坛达到一百多万个,并且80%的网站拥有独立的论坛,经常浏览网络论坛的人数已经过亿。不同于其他的形式,网络论坛具有速度快、范围广的特点。一个受人瞩目的话题可能在很短的时间内达到上万名网民的回帖讨论,回帖信息达到成百上千页。此时,用户不仅仅想查看话题的发起者的言论即主帖的内容,更想看到其他网民对该话题所发表的言论。然而,通过一般的搜索引擎很难查询到翻页的回帖信息,即使有时能够查询到,在时效性上也很不理想,数据延迟较大。现有的论坛采集系统也只是采集帖子的首页信息,而不采集帖子的回帖信息。
发明内容
针对现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种论坛回帖增量采集方法及系统,该方法及系统能够快速、准确、完整地采集一篇帖子的所有主/回帖信息,克服了现有搜索引擎在搜索帖子的翻页回帖信息时存在漏搜或者搜索不到的缺陷,以及现有论坛采集系统只采集帖子的首页信息而不采集回帖信息的缺陷。
为解决上述技术问题,本发明采用的技术方案如下:
一种论坛回帖增量采集方法,包括以下步骤:
(1)根据帖子首页URL和帖子回复数信息,周期性判断所有需要采集的论坛列表页中是否存在新增帖子和/或具有新回帖的帖子;
(2)如果存在新增帖子,则从新增帖子中提取出主贴和回帖信息;如果存在具有新回帖的帖子,则计算新回帖起点和新回帖个数,根据新回帖起点和新回帖个数从具有新回帖的帖子中提取出新回帖信息。
一种论坛回帖增量采集系统,包括用于根据帖子首页URL和帖子回复数信息,周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子的判断装置;
用于对新增帖子,从新增帖子中提取出主贴和回帖信息;对具有新回帖的帖子,计算新回帖起点和新回帖个数,根据新回帖起点和新回帖个数从具有新回帖的帖子中提取出新回帖信息的提取装置。
本发明所述的方法及系统,通过周期性监控列表页的方式,能够及时获取列表页中的新增回帖和具有新回帖的帖子信息;通过URL标识和回复数信息进行快速消重处理,避免重复采集;通过区分不同的翻页链接提取方式达到快速进行翻页回帖采集的目的;从而能够快速、准确、完整地采集一篇帖子的所有主/回帖信息。回帖的漏采率在5%以下,实时性可达分钟级。
附图说明
图1是具体实施方式中论坛回帖增量采集系统的结构框图;
图2是具体实施方式中论坛回帖增量采集方法的流程图;
图3是具体实施方式中判断列表页中是否存在新增帖子和具有新回帖的帖子的方法流程图;
图4是具体实施方式中从新增帖子中提取出主贴和回帖信息,从具有新回帖的帖子中提取出新回帖信息的方法流程图。
具体实施方式
下面结合附图及具体实施方式对本发明进行进一步的说明。
如图1所示,本实施方式中论坛回帖增量采集系统包括判断装置11,与判断装置11连接的提取装置12。其中,判断装置11包括第一队列单元111、第一获取单元112、列表页提取单元113和判断单元114。提取装置12包括第二队列单元121、扫描单元122、第二获取单元123、内容页提取单元124和消重单元125。
判断装置11用于根据帖子首页URL和帖子回复数信息,周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子。其中,第一队列单元111用于将所有需要采集的论坛列表页URL添加到列表页采集队列。第一获取单元112用于从列表页采集队列中取出每个列表页URL。列表页提取单元113用于对取出的每个列表页URL,获取该列表页URL对应的网页内容,从所述网页内容中提取出每个帖子首页URL和当前回复数。判断单元113用于根据帖子首页URL判断每个帖子在已采集帖子信息表中是否存在;如果存在,则继续判断该帖子当前回复数是否大于已采集帖子信息表中记录的本次回复数,如果大于,则该帖子有新回帖,更新已采集帖子信息表中该帖子的上次回复数和本次回复数;如果该帖子在已采集帖子信息表中不存在,则该帖子为新增帖子,将该帖子首页URL和当前回复数添加到已采集帖子信息表中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010618393.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像分割方法及系统
- 下一篇:苯乙烯罐恒温控制装置