[发明专利]有效的新鲜度爬行调度在审
申请号: | 202080037164.5 | 申请日: | 2020-03-17 |
公开(公告)号: | CN113853599A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | A·科洛博维;吕成;E·J·霍维茨;Y·佩雷斯 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 马明月 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 有效 新鲜 爬行 调度 | ||
本文描述的技术通过最小化由可用刷新带宽约束的成本函数来构建最优刷新调度。成本函数接收针对内容项的重要性分数和针对内容项的变化率作为输入,以便优化调度。当在使用可用带宽的同时不再最小化成本的刷新调度被找到时,成本函数被认为是优化的。该技术能够构建优化调度,以刷新具有不完整变化数据的内容、具有完整变化数据的内容或者具有和没有完整变化数据的内容的混合。它还能够从自己的调度执行历史重新学习内容项变化率,并且重新计算刷新调度,从而确保该调度考虑了内容项更新的最新趋势。
背景技术
Web爬行器是搜索引擎的典型部分,其获得随后由搜索服务提供给其用户的信息。随着Web变得越来越动态,除了发现新的网页之外,爬行器需要不断地重新访问已经在搜索引擎索引中的那些网页,以便通过拾取页面改变的内容来使索引保持新鲜。该刷新过程是资源密集型的。
发明内容
该发明内容被提供来以简化的形式介绍对于下面在详细描述中进一步描述的概念的选择。该发明内容不旨在标识要求保护的主题的关键特征或必要特征,也不旨在用于辅助确定要求保护的主题的范围。
本文描述的技术为内容追踪器(诸如搜索引擎)提供更有效的爬行调度,以在刷新内容索引时使用。随着Web变得更加动态,依赖于Web数据的服务面临着跟上内容变化越来越具有挑战性的问题。无论是连续查询系统、虚拟助理还是互联网搜索引擎,这种服务都会追踪许多远程内容源——网页或数据流。用户预计追踪器显露出现在源处的最新内容。针对追踪器监测的所有内容源,追踪器决定何时重新请求(爬行)内容源,以便鉴于自上次内容被爬行以来所做的改变来刷新内容。做出这些爬行决策的策略很好地解决了新鲜度爬行调度问题。
本文描述的技术是一种用于新鲜度爬行调度的整体方法,其在计算上是有效的并且使用一种类型的强化学习来生成最优新鲜度结果。在理想的世界中,一旦内容发生改变,搜索引擎就会重新访问内容源。作为实际的问题,这在技术上通常是不可能的:大多数内容源(例如网页)在其内容发生改变时不会通知搜索引擎。即使改变了,网络带宽约束也会防止搜索引擎的爬行器在每次变化通知时更新内容。目标是找到重新访问这些内容源的最优时间,同时考虑总体可用带宽以及内容源的估计变化率、内容源的重要性和接收到的变化通知。
在高级别上,本文描述的技术通过最小化成本函数来构建最优刷新调度,成本函数表征搜索引擎因受可用刷新带宽约束的陈旧性(即,其索引的新鲜度的缺乏)而引发的惩罚。成本函数考虑了搜索引擎定义的内容项的重要性分数和内容项的变化率作为输入,以便优化调度。当在使用可用带宽的同时不再最小化成本的刷新调度被找到时,优化问题被解决。最优刷新调度(有时在本文中被描述为刷新策略)为要被刷新的集合中的每个内容项分配一定量的可用带宽。总之,分配给集合内的每个项目的带宽小于或等于可用带宽。
使用本文描述的技术创建的最优调度将最大化总体项目新鲜度。内容项的变化率和针对内容项的重要性分数两者都被用于分配带宽。本文描述的技术的特征还在于,在由调度覆盖的时间范围内,将被刷新的集合中的所有内容项将被分配至少一些带宽。
本文描述的技术能够被优化,以构建用于具有不同的关联变化数据量的内容项的刷新调度。该技术能够构建优化调度,以刷新具有不完整变化数据的内容项(当搜索引擎不时观察项目并由此检测到变化,但不知道该项目在观察值之间发生多少次变化时)、具有完整变化数据的内容项(当每次内容项发生改变时搜索引擎都会获得通知时)或者具有和没有完整变化数据的内容项的混合。优化调度通过为不同场景选择不同参数化的成本函数来构建。特别地,用于具有完整变化数据的站点的成本函数可能取决于响应于内容站点的变化通知而爬行的概率。换言之,系统可能不会在每次变化通知被接收到时爬行每个内容项。相反,概率被用于确定是否访问该站点,不同的概率值转化为成本函数的不同值。从概念上讲,这能够被想象为在变化通知被接收到时抛硬币来确定是否访问该站点。代替与抛硬币相关联的50%概率,为该项目计算的概率将被用于做出爬行或不爬行的决策。
附图说明
本公开在下面参照所附附图详细描述,其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080037164.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有三维激光雷达的机器人配置
- 下一篇:气密端子