[发明专利]爬虫调度方法、装置、电子设备及存储介质有效
申请号: | 201811631616.3 | 申请日: | 2018-12-28 |
公开(公告)号: | CN109670101B | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 陈劲 | 申请(专利权)人: | 奇安信科技集团股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 周天宇 |
地址: | 100088 北京市西城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种爬虫调度方法,应用于计算机技术领域,包括:获取待爬取的网页的数据参数,按照时间序列,计算所述数据参数的统计量,基于该统计量,统计量包括次数、均值、方差、协方差和自回归系数。通过逻辑回归算法和FTRL算法,确定下一次爬取该网页的数据参数的调度时间,根据该调度时间,更新调度任务队列。本发明还公开了一种爬虫调度装置、电子设备及存储介质,可提升爬虫的抓取效率。 | ||
搜索关键词: | 爬虫 调度 方法 装置 电子设备 存储 介质 | ||
【主权项】:
1.一种爬虫调度方法,其特征在于,包括:获取待爬取的网页的数据参数;按照时间序列,计算所述数据参数的统计量,所述统计量包括次数、均值、方差、协方差和自回归系数;基于所述统计量,通过逻辑回归算法和FTRL算法,确定下一次爬取所述网页的数据参数的调度时间;根据所述调度时间,更新调度任务队列,所述调度任务队列包括待爬取资源和所述待爬取资源对应的调度时间。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奇安信科技集团股份有限公司,未经奇安信科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811631616.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种页面数据抓取方法及装置
- 下一篇:基于词表模型的用户检索意图判断方法