[发明专利]抓取问答类网页的方法和装置有效
申请号: | 201410802012.6 | 申请日: | 2014-12-18 |
公开(公告)号: | CN104462493B | 公开(公告)日: | 2018-08-03 |
发明(设计)人: | 王智广 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京智汇东方知识产权代理事务所(普通合伙) 11391 | 代理人: | 康正德;郭海彬 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种抓取问答类网页的方法和装置。其中抓取问答类网页的方法包括:在已抓取的问答类网页中识别出预定内容类型的目标问答网页;获取目标问答网页的发布时间以及目标问答网页的抓取时间;计算发布时间与抓取时间的时间差;在确定时间差小于预设阈值时,对目标问答网页进行重新抓取。使用本发明的方案,可以及时地将问答类网页中出现的有效答案进行收录,提高了问答类网页抓取的效率。 | ||
搜索关键词: | 抓取 问答 网页 方法 装置 | ||
【主权项】:
1.一种抓取问答类网页的方法,包括:在已抓取的问答类网页中识别出预定内容类型的目标问答网页;获取所述目标问答网页的发布时间以及所述目标问答网页的抓取时间;计算所述发布时间与所述抓取时间的时间差;在确定所述时间差小于预设阈值时,对所述目标问答网页进行重新抓取,在确定所述时间差大于或等于所述预设阈值时,获取所述目标问答网页的用户访问数据;在所述用户访问数据满足预设条件时,对所述目标问答网页进行重新抓取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410802012.6/,转载请声明来源钻瓜专利网。