[发明专利]一种论坛回帖增量采集方法及系统有效
申请号: | 201010618393.4 | 申请日: | 2010-12-22 |
公开(公告)号: | CN102567407A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 吴新丽;杨建武 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天悦专利代理事务所(普通合伙) 11311 | 代理人: | 田明;任晓航 |
地址: | 100871 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 论坛 回帖 增量 采集 方法 系统 | ||
1.一种论坛回帖增量采集方法,包括以下步骤:
(1)根据帖子首页URL和帖子回复数信息,周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子;
(2)如果存在新增帖子,则从新增帖子中提取出主贴和回帖信息;如果存在具有新回帖的帖子,则计算新回帖起点和新回帖个数,根据新回帖起点和新回帖个数从具有新回帖的帖子中提取出新回帖信息。
2.如权利要求1所述的论坛回帖增量采集方法,其特征在于,步骤(1)中所述周期判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子的方法如下:
(a)获取所有需要采集的论坛列表页URL;
(b)对每个列表页URL,获取该列表页URL对应的网页内容;再从所述网页内容中提取出每个帖子首页URL和当前回复数;
(c)根据帖子首页URL判断每个帖子在已采集帖子信息表中是否存在;如果存在,则继续判断该帖子当前回复数是否大于已采集帖子信息表中记录的本次回复数,如果大于,则该帖子有新回帖,更新已采集帖子信息表中该帖子的上次回复数和本次回复数;如果该帖子在已采集帖子信息表中不存在,则该帖子为新增帖子,将该帖子首页URL和当前回复数添加到已采集帖子信息表中。
3.如权利要求2所述的论坛回帖增量采集方法,其特征在于,步骤(a)中所述获取所有需要采集的论坛列表页URL的方法如下:
对每个需要采集的论坛列表页均设定采集时间间隔;监控每个列表页的采集时间间隔;当某个列表页达到采集时间间隔时,便将该列表页URL添加到列表页采集队列;
定时扫描列表页采集队列,如果列表页采集队列不空,则按照先进先出顺序依次从列表页采集队列中取出列表页URL。
4.如权利要求3所述的论坛回帖增量采集方法,其特征在于:所述采集时间间隔根据列表页URL所属论坛的更新频率动态调整;论坛的更新频率越快,采集时间间隔越短;论坛的更新频率越慢,采集时间间隔越长。
5.如权利要求3所述的论坛回帖增量采集方法,其特征在于:所述从列表页采集队列中取出的列表页URL需要满足该列表页URL所属网站的友好访问条件。
6.如权利要求2~5中任一项所述的论坛回帖增量采集方法,其特征在于,步骤(2)中所述从新增帖子中提取出主贴和回帖信息以及从具有新回帖的帖子中提取出新回帖信息的方法如下:
(i)将新增帖子的首页URL和具有新回帖的帖子URL添加到内容页采集队列;
(ii)定时扫描内容页采集队列;
(iii)如果内容页采集队列不空,则从内容页采集队列中取出每个URL;
(iv)获取取出的URL对应的网页内容,并从所述网页内容中提取主贴和/或回帖信息和/或翻页URL,并将翻页URL添加到内容页采集队列。
7.如权利要求6所述的论坛回帖增量采集方法,其特征在于,步骤(i)中所述将新增帖子的首页URL和具有新回帖的帖子URL添加到内容页采集队列的方法如下:
对于新增帖子,如果该帖子首页URL在内容页采集队列中存在,则将该帖子首页URL取出,并将已采集帖子信息表中记录的该帖子本次回复数修改为当前回复数,再将其插入到内容页采集队列中;如果该帖子首页URL在内容页采集队列中不存在,则直接将该帖子首页URL添加到内容页采集队列;
对于具有新回帖的帖子,如果该帖子所属论坛的翻页方式为计算翻页方式,则直接将具有新回帖的帖子首页URL添加到内容页采集队列;如果该帖子所属论坛的翻页方式为下一页翻页方式,则查找翻页URL信息表,将所述翻页URL信息表中该帖子的最后一个翻页URL添加到内容页采集队列。
8.如权利要求6所述的论坛回帖增量采集方法,其特征在于,步骤(iii)中所述从内容页采集队列中取出每个URL的方法如下:
按照先进先出顺序依次从内容页采集队列中取出URL,并且满足该URL所属网站的友好访问条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010618393.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像分割方法及系统
- 下一篇:苯乙烯罐恒温控制装置