[发明专利]有效的新鲜度爬行调度在审
申请号: | 202080037164.5 | 申请日: | 2020-03-17 |
公开(公告)号: | CN113853599A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | A·科洛博维;吕成;E·J·霍维茨;Y·佩雷斯 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 马明月 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 有效 新鲜 爬行 调度 | ||
1.一种用于准备调度的方法,所述调度用于爬行器在寻求内容集中的内容项的更新副本时遵循,所述方法包括:
接收带宽约束,所述带宽约束限制了所述爬行器被允许在每单位时间跨所述内容集进行的爬行总量;
接收重要性分数集,所述重要性分数集包括针对所述内容集中的每个内容项的单独重要性分数;
接收变化率集合,所述变化率集合包括针对所述内容集中的每个内容项的单独变化率;
使用成本函数计算针对所述内容集的爬行率调度,所述爬行率调度包括针对所述内容集中的每个单独内容项的单独爬行率,其中所述变化率集合和所述重要性分数集是所述成本函数的输入,其中所述爬行率调度是所述成本函数的解,所述解最小化跨所有内容项的成本的总和并且由所述带宽约束约束,使得针对所述内容集中的所有内容项的爬行率的总和等于所述带宽约束;以及
输出所述爬行率调度以用于由所述爬行器使用。
2.根据权利要求1所述的方法,其中所述带宽约束包括爬行器约束和主机约束,其中所述爬行器约束被定义为所述爬行器被允许在每单位时间针对所有内容源进行的爬行事件的第一总和,并且其中所述主机约束是每单位时间针对单独主机内容源所允许的爬行事件的第二总和。
3.根据权利要求1所述的方法,其中所述单独变化率是基于以下而被估计的:针对所述单独内容项的先前爬行事件的分析、以及所述单独内容项在爬行事件之间是否改变的确定。
4.根据权利要求3所述的方法,其中所述成本函数是使用拉格朗日乘子方法而被最小化的。
5.根据权利要求4所述的方法,其中在所述拉格朗日乘子方法中使用的拉格朗日乘子是使用分半搜索方法而被确定的。
6.根据权利要求1所述的方法,其中针对所述内容集中的内容项的变化信息是不完整的。
7.根据权利要求1所述的方法,其中针对所述内容集中的每个单独内容项的所述单独爬行率大于零。
8.一种用于准备爬行概率向量的方法,所述爬行概率向量用于爬行器在寻求内容集中的内容项的更新副本时遵循,所述方法包括:
确定爬行概率向量,所述爬行概率向量包括针对所述内容中的每个单独内容项的单独爬行概率,其中所述单独爬行概率被用于在接收到针对关联的单独内容项的变化通知时确定是否爬行所述关联的单独内容项;以及
输出爬行概率向量,所述爬行概率向量包括针对每个单独内容项的所述单独爬行概率。
9.根据权利要求8所述的方法,还包括:
接收带宽约束,所述带宽约束限制了所述爬行器被允许在每单位时间跨所述内容集进行的爬行总量;以及
在所述确定所述爬行概率向量时,使用所述带宽约束。
10.根据权利要求9所述的方法,还包括:
接收重要性分数集,所述重要性分数集包括针对所述内容集中的每个内容项的单独重要性分数;
接收变化率集合,所述变化率集合包括针对所述内容集中的每个内容项的单独变化率;以及
在确定所述爬行概率向量时,使用所述重要性分数集和所述变化率集合。
11.根据权利要求9所述的方法,其中所述爬行概率向量是成本函数的解,所述解最小化跨所有内容项的成本的总和并且由所述带宽约束约束,使得针对所述内容集中的所有内容项的爬行率的总和等于所述带宽约束。
12.根据权利要求11所述的方法,其中所述成本函数是使用拉格朗日乘子方法求解的。
13.根据权利要求9所述的方法,其中所述带宽约束包括爬行器约束和主机约束,其中所述爬行器约束被定义为所述爬行器被允许在每单位时间针对所有内容源进行的爬行事件的第一总和,并且其中所述主机约束是每单位时间针对单独主机内容源所允许的爬行事件的第二总和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080037164.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:具有三维激光雷达的机器人配置
- 下一篇:气密端子