[发明专利]一种资源搜索调度方法及装置有效
申请号: | 201510901428.8 | 申请日: | 2015-12-08 |
公开(公告)号: | CN105550255B | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 郑燕琴 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/951 |
代理公司: | 北京智汇东方知识产权代理事务所(普通合伙) 11391 | 代理人: | 康正德;孙晓芳 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 资源 搜索 调度 方法 装置 | ||
本发明提供了一种获取待调度索引页的当前主体链接;将获取的所述当前主体链接与所述待调度索引页的历史主体链接进行比较;若根据比较结果确定存在链接遗漏,对待调度索引页进行翻页调度,直至确定不存在连接遗漏时,执行后续调度操作;若根据比较结果确定不存在链接遗漏,执行后续调度操作。可以避免资源搜索调度过程中出现漏链现象,提高资源收录覆盖率。
技术领域
本发明涉及数据搜索技术领域,特别是涉及资源搜索调度方法及装置。
背景技术
在网络数据搜索技术中,蜘蛛(Spider)系统位于搜索引擎数据流的最上游,负责将互联网上的资源采集到本地,提供给后续检索使用,是搜索引擎的最主要数据来源之一。spider系统的目标就是发现并抓取互联网中一切有价值的网页,为达到这个目标,首先就是发现有价值网页的链接,当前spider系统有一定的调度机制来尽量快而全的发现资源链接。
例如:在进行资源链接的调度时,可以设定以下机制:
机制一:对挖掘的种子按一定的周期(例如1天调度20次)进行调度,以便能覆盖到所有的时效性的网页。
机制二:考虑到有限的流量及大量的索引页,对一般的索引页(不在种子集合范围内)按一定的周期(例如一周重抓一次)进行调度。
上述调度机制具有至少下列缺点:
对于机制一,种子调度周期间隔较短时,一般不会存在漏链的问题,但是可能会有流量的浪费,即当采点不准时,就是浪费流量;种子调度周期间隔较长时,可能会存在漏链。
对于机制二,由于调度周期间隔较长,可能会存在漏链。
在调度过程中出现漏链的情况会降低Spider系统的收录覆盖率。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的资源搜索调度方法和相应的资源搜索调度装置,可以避免资源搜索调度过程中出现漏链现象,提高资源收录覆盖率。
本发明提供一种资源搜索调度方法,包括:
获取待调度索引页的当前主体链接;
将获取的所述当前主体链接与所述待调度索引页的历史主体链接进行比较;
若根据比较结果确定存在链接遗漏,对待调度索引页进行翻页调度,直至确定不存在连接遗漏时,执行后续调度操作;
若根据比较结果确定不存在链接遗漏,执行后续调度操作。
在一些可选的实施例中,若根据比较结果确定存在链接遗漏,对待调度索引页进行翻页调度,直至确定不存在连接遗漏时,具体包括:
当所述当前主体链接与历史主体链接不存在交集时,获取所述待调度索引页下一页的当前主体链接,并返回执行所述将获取的当前主体链接与所述待调度索引页的历史主体链接进行比较的步骤,直至所述当前主体链接与历史主体链接存在交集时。
在一些可选的实施例中,所述获取待调度索引页的当前主体链接,具体包括:
确定所述待调度索引页中的最大相似块,得到待调度索引页的当前主体链接。
在一些可选的实施例中,确定所述待调度索引页中的最大相似块,具体包括:
获取可扩展标记语言XML路径xpath相同的节点,得到相似块;
根据相似块的位置和面积,确定出所述待调度索引页中的最大相似块。
在一些可选的实施例中,所述相似块的位置根据所述相似块在调度索引页面中的宽度、高度、上边距、左边距确定;
所述相似块的面积根据所述相似块在调度索引页面中的宽度、高度确定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510901428.8/2.html,转载请声明来源钻瓜专利网。