[发明专利]抓取问答类网页的方法和装置有效
申请号: | 201410802012.6 | 申请日: | 2014-12-18 |
公开(公告)号: | CN104462493B | 公开(公告)日: | 2018-08-03 |
发明(设计)人: | 王智广 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京智汇东方知识产权代理事务所(普通合伙) 11391 | 代理人: | 康正德;郭海彬 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抓取 问答 网页 方法 装置 | ||
1.一种抓取问答类网页的方法,包括:
在已抓取的问答类网页中识别出预定内容类型的目标问答网页;
获取所述目标问答网页的发布时间以及所述目标问答网页的抓取时间;
计算所述发布时间与所述抓取时间的时间差;
在确定所述时间差小于预设阈值时,对所述目标问答网页进行重新抓取,
在确定所述时间差大于或等于所述预设阈值时,获取所述目标问答网页的用户访问数据;在所述用户访问数据满足预设条件时,对所述目标问答网页进行重新抓取。
2.根据权利要求1所述的方法,其中,
所述预定内容类型包括所述问答类网页中不包含答案的页面。
3.根据权利要求1或2所述的方法,其中,
在已抓取的问答类网页中识别出预定内容类型的目标问答网页包括:
对预设时间段内抓取的统一资源符属于问答类站点的问答网页进行内容扫描,以确定所述问答网页中包含的答案数量;
将不包含答案的所述问答网页作为所述目标问答网页。
4.根据权利要求1或2所述的方法,其中,
获取所述目标问答网页的用户访问数据包括:获取所述目标问答网页的独立访客数据;
所述预设条件包括:在所述时间差内的时间中所述目标问答网页新增的独立访客数达到预设数量。
5.根据权利要求1或2所述的方法,其中,
获取所述目标问答网页的用户访问数据包括:获取所述目标问答网页作为其他网页的超链接被访问的信息;
所述预设条件包括:在所述时间差内的时间中所述目标问答网页作为其他网页的超链接被访问过。
6.根据权利要求1或2所述的方法,其中,
所述目标问答网页的发布时间包括:所述目标问答网页的创建时间或者搜索引擎发现所述目标问答网页的时间。
7.一种抓取问答类网页的装置,包括:
识别模块,配置为在已抓取的问答类网页中识别出预定内容类型的目标问答网页;
时间获取模块,配置为获取所述目标问答网页的发布时间以及所述目标问答网页的抓取时间;
计算模块,配置为计算所述发布时间与所述抓取时间的时间差;
抓取模块,配置为抓取在确定所述时间差小于预设阈值时,对所述目标问答网页进行重新抓取,其中所述预定内容类型包括所述问答类网页中不包含答案的页面,
所述抓取问答类网页的装置,还包括:访问数据获取模块,配置为在确定所述时间差大于或等于所述预设阈值时,获取所述目标问答网页的用户访问数据;所述抓取模块,还配置为在所述用户访问数据满足预设条件时,对所述目标问答网页进行重新抓取。
8.根据权利要求7所述的装置,其中所述识别模块还配置为:
对预设时间段内抓取的统一资源符属于问答类站点的问答网页进行内容扫描,以确定所述问答网页中包含的答案数量;
将不包含答案的所述问答网页作为所述目标问答网页。
9.根据权利要求7所述的装置,其中,
所述访问数据获取模块,还配置为获取所述目标问答网页的独立访客数据;
所述抓取模块,还配置为在所述时间差内的时间中所述目标问答网页新增的独立访客数达到预设数量时,对所述目标问答网页进行重新抓取。
10.根据权利要求7所述的装置,其中,
所述访问数据获取模块,还配置为获取所述目标问答网页作为其他网页的超链接被访问的信息;
所述抓取模块,还配置为在所述时间差内的时间中所述目标问答网页作为其他网页的超链接被访问过时,对所述目标问答网页进行重新抓取。
11.根据权利要求7至10中任一项所述的装置,其中所述时间获取模块还配置为:
获取所述目标问答网页的创建时间或者搜索引擎发现所述目标问答网页的时间,以作为所述目标问答网页的发布时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410802012.6/1.html,转载请声明来源钻瓜专利网。