[发明专利]时效性种子页的抓取方法及装置在审
申请号: | 201310638133.7 | 申请日: | 2013-12-02 |
公开(公告)号: | CN103617264A | 公开(公告)日: | 2014-03-05 |
发明(设计)人: | 魏少俊 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市浩天知识产权代理事务所 11276 | 代理人: | 宋菲;刘云贵 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时效性 种子 抓取 方法 装置 | ||
本发明公开了一种时效性种子页的抓取方法及装置,其中方法包括:对于一时效性种子页,获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子,基于所述频率调整因子计算频率调整系数;确定与所述当前预设时间段存在对应关系的历史预设时间段的抓取频率;判断所述当前预设时间段是否属于节假日与工作日之间的切换时间,若是则根据节假日与工作日之间的切换情况确定节假日因子;根据所述抓取频率、所述频率调整系数以及节假日因子,动态调整所述当前预设时间段的抓取频率。根据本发明可以动态调整节假日因子、抓取频率,降低对种子页不必要的抓取,也能保证新链接被及时发现而不丢失。
技术领域
本发明涉及互联网技术领域,具体涉及一种时效性种子页的抓取方法及装置。
背景技术
互联网总是在不断产生新的内容,比如新闻、各种热门的讨论等等。这些新内容分散在互联网不同的角落,搜索引擎为了能及时对它们提供检索,需要从浩如烟海的互联网上及时把它们找到并抓取回来。幸运的是,指向时效性内容的链接几乎总是在一类特定的页面上出现,这类页面叫做时效性种子页(简称hub页),比如http://news.sina.com.cn/。所以理论上只需要找到这些hub页,然后及时检查它们的变化,便能把时效性链接全部找到。
hub页面的内容是在不断变化的,新链接出现一段时间后就很可能会消失。像论坛的版面,滚动非常快,新帖子要不了多久就沉下去了。如果不能及时发现它们的变化,就会导致新链接丢失。但是每检查一次页面,就需要发起一次抓取,假如搜索引擎不停地检查这类页面,则会对所属网站产生大量抓取。这种大量的抓取在很多情况下未必能发现新链接,造成大量无意义抓取,而且也是一种很不礼貌的行为,甚至会触发网站对搜索引擎爬虫的封禁,导致一段时间内爬虫无法访问网站。由于节假日与工作日上网人数的明显不同,网上的信息产生量也明显不同,所以如果搜索引擎在节假日与工作日保持相同的频率抓取就会造成一些新链接没有被抓取或者造成无意义抓取。
因此,既保证时效性新链接不丢失,又不会过度对网站进行访问,这是搜索引擎爬虫在时效性链接发现问题上期望达到的目标。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的时效性种子页的抓取装置和相应的抓取方法。
根据本发明的一个方面,提供了一种时效性种子页的抓取方法,包括:对于一时效性种子页,获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子,基于所述频率调整因子计算频率调整系数;确定与所述当前预设时间段存在对应关系的历史预设时间段的抓取频率;判断所述当前预设时间段是否属于节假日与工作日之间的切换时间,若是则根据节假日与工作日之间的切换情况确定节假日因子;根据所述抓取频率、所述频率调整系数以及节假日因子,动态调整所述当前预设时间段的抓取频率。
可选地,所述判断所述当前预设时间段是否属于节假日与工作日之间的切换时间进一步包括:若所述当前预设时间段属于工作日,而该工作日的前一日为节假日,则判定所述当前预设时间段属于节假日与工作日之间的切换时间;若所述当前预设时间段属于节假日,而该节假日的前一日为工作日,则判定所述当前预设时间段属于节假日与工作日之间的切换时间。
可选地,所述根据节假日与工作日之间的切换情况确定节假日因子进一步包括:若所述当前预设时间段属于工作日,而该工作日的前一日为节假日,则确定节假日因子为大于1的第一预定值;若所述当前预设时间段属于节假日,而该节假日的前一日为工作日,则确定节假日因子为小于1的第二预定值。
可选地,所述根据节假日与工作日之间的切换情况确定节假日因子进一步包括:通过在当前预设时间段之前若干次节假日与工作日之间切换时的抓取情况,动态调整所述节假日因子。
可选地,所述根据所述抓取频率、所述频率调整系数以及节假日因子,动态调整所述当前预设时间段的抓取频率具体为:将所述抓取频率、所述频率调整系数以及所述节假日因子的乘积作为动态调整后的所述当前预设时间段的抓取频率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310638133.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:能解决消防栓内漏的装置
- 下一篇:一种可折叠电动车