[发明专利]一种获取网站资源的方法及装置有效
申请号: | 201710236194.9 | 申请日: | 2017-04-12 |
公开(公告)号: | CN108696562B | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 徐凡;黄贞;苗辉 | 申请(专利权)人: | 贵州白山云科技股份有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 北京名华博信知识产权代理有限公司 11453 | 代理人: | 白莹;李冬梅 |
地址: | 550003 贵州省贵安*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 获取 网站 资源 方法 装置 | ||
1.一种获取网站资源的方法,其特征在于,包括:
备份服务器判断在满足资源获取条件时,访问内容分发网络节点,从所述内容分发网络节点获取目标网站的资源内容并保存;其中,所述判断在满足资源获取条件是指:判断不存在所述目标网站的资源内容或者存在所述目标网站的资源内容并且所述资源内容已超过更新期限;
所述从所述内容分发网络节点获取目标网站的资源内容包括:所述内容分发网络节点收到所述备份服务器发送的用于获取所述目标网站的资源内容请求后,判断所述内容分发网络节点是否存在所述目标网站的资源内容的缓存,如果是,将缓存的所述目标网站的资源内容发送至所述备份服务器,如果否,从所述目标网站的源站获取所述目标网站的资源内容并发送至所述内容分发网络节点;
备份服务器获取目标网站的资源内容的方式为使用爬虫程序获取,使用爬虫程序获取从CDN节点爬取目标网站,指定爬取入口和包含的子域名,爬虫程序使用Scrapy框架分析页面包含的资源,根据后台配置层级进行爬取;爬虫程序对网站的资源进行选择性的爬取,根据经验值进行设置爬取的内容范围或者爬取一定链接等级的内容;
所述方法还包括:所述备份服务器将获取的目标网站的资源内容存储于云存储服务器;
内容分发网络节点接收到对所述目标网站的访问请求后,查询所述内容分发网络节点中预设的所述目标网站的各预设源站的状态,在各预设源站的状态均为故障时,将各预设源站的地址设置为所述备份服务器的地址;
所述备份服务器接收到用户对所述目标网站的访问请求后,从所述云存储服务器获取与所述访问请求对应的资源内容,将所述资源内容返回至所述内容分发网络节点;
所述内容分发网络节点将从所述备份服务器接收到的资源内容发送至所述访问请求的发送方。
2.如权利要求1所述的获取网站资源的方法,其特征在于,
所述备份服务器将所述资源内容存储于云存储服务器:备份服务器获取目标网站的资源内容后记录此资源内容的版本,将所述资源内容和相应的版本存储于云存储服务器;
所述方法还包括:所述内容分发网络节点将各预设源站的地址设置为所述备份服务器的地址后,确定版本信息,向所述备份服务器发送所述版本信息;所述备份服务器接收到用户对所述目标网站的访问请求,从所述云存储服务器获取与所述访问请求对应的所述版本下的资源内容,将所述资源内容返回至所述内容分发网络节点。
3.如权利要求2所述的获取网站资源的方法,其特征在于,
所述版本信息包括备份服务器获取目标网站的资源内容的时间信息。
4.如权利要求1所述的获取网站资源的方法,其特征在于,
目标网站的资源内容是指以下内容中的至少一种:所述目标网站的所有资源内容、所述目标网站的子域名下的资源内容、所述目标网站的不同链接等级对应的资源内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州白山云科技股份有限公司,未经贵州白山云科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710236194.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:资源推送的方法和装置
- 下一篇:一种基于物联网的监控方法及监控系统