[发明专利]时效性种子页的抓取方法及装置在审
申请号: | 201310638133.7 | 申请日: | 2013-12-02 |
公开(公告)号: | CN103617264A | 公开(公告)日: | 2014-03-05 |
发明(设计)人: | 魏少俊 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市浩天知识产权代理事务所 11276 | 代理人: | 宋菲;刘云贵 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时效性 种子 抓取 方法 装置 | ||
1.一种时效性种子页的抓取方法,其中,将一天划分为若干个平均的预设时间段,任一预设时间段和与其对应的历史预设时间段分属当日和前一日的同一时段,针对任一预设时间段,所述方法包括:
对于一时效性种子页,获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子,基于所述频率调整因子计算频率调整系数;
确定与所述当前预设时间段存在对应关系的历史预设时间段的抓取频率;
判断所述当前预设时间段是否属于节假日与工作日之间的切换时间,若是则根据节假日与工作日之间的切换情况确定节假日因子;
根据所述历史预设时间段的抓取频率、所述频率调整系数以及节假日因子,动态调整所述当前预设时间段的抓取频率;
其中,所述当前预设时间段内对所述种子页已经发起的抓取次数为n;所述获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子具体为:对于n次抓取中的任一次抓取,根据该次抓取之前一段预设时间内发现新链接的次数与发起抓取的次数的比率确定该次抓取对应的频率调整因子;所述基于所述频率调整因子计算频率调整系数具体为:计算n次抓取对应的频率调整因子的乘积作为所述频率调整系数;
基于所述动态调整后的所述当前预设时间段的抓取频率在所述当前预设时间段中对所述种子页进行抓取,其中,下一次抓取的时间点为当前抓取的时间点加上平均抓取时间间隔,而平均抓取时间间隔是根据当前预设时间段的总时长和动态调整后的所述当前预设时间段的抓取频率而确定的。
2.根据权利要求1所述的方法,所述判断所述当前预设时间段是否属于节假日与工作日之间的切换时间进一步包括:
若所述当前预设时间段属于工作日,而该工作日的前一日为节假日,则判定所述当前预设时间段属于节假日到工作日之间的切换时间;
若所述当前预设时间段属于节假日,而该节假日的前一日为工作日,则判定所述当前预设时间段属于工作日到节假日之间的切换时间。
3.根据权利要求1所述的方法,所述根据节假日与工作日之间的切换情况确定节假日因子进一步包括:
若所述当前预设时间段属于工作日,而该工作日的前一日为节假日,则确定节假日因子为大于1的第一预定值;
若所述当前预设时间段属于节假日,而该节假日的前一日为工作日,则确定节假日因子为小于1的第二预定值。
4.根据权利要求1所述的方法,所述根据节假日与工作日之间的切换情况确定节假日因子进一步包括:
通过在当前预设时间段之前若干次节假日与工作日之间切换时的抓取情况,动态调整所述节假日因子。
5.根据权利要求1-4中任一项所述的方法,所述根据所述历史预设时间段的抓取频率、所述频率调整系数以及节假日因子,动态调整所述当前预设时间段的抓取频率具体为:
将所述历史预设时间段的抓取频率、所述频率调整系数以及所述节假日因子的乘积作为动态调整后的所述当前预设时间段的抓取频率。
6.根据权利要求1-4中任一项所述的方法,所述方法还包括:如果所述历史预设时间段的抓取频率为无效值,则根据与所述历史预设时间段相邻的预设时间段的抓取频率、所述频率调整系数以及节假日因子,动态调整所述当前预设时间段的抓取频率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310638133.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:能解决消防栓内漏的装置
- 下一篇:一种可折叠电动车