[发明专利]下载网站静态网页的系统及方法无效
申请号: | 200610062196.2 | 申请日: | 2006-08-18 |
公开(公告)号: | CN101127038A | 公开(公告)日: | 2008-02-20 |
发明(设计)人: | 李忠一;叶建发;卢秋桦;姜志强 | 申请(专利权)人: | 鸿富锦精密工业(深圳)有限公司;鸿海精密工业股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L12/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518109广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 下载 网站 静态 网页 系统 方法 | ||
1.一种下载网站静态网页的系统,包括至少一台应用服务器、一台与所述应用服务器相连的目标网站服务器、一台与所述应用服务器相连的内部服务器及与所述应用服务器和内部服务器相连的数据库,其特征在于,所述应用服务器包括:
写入模块,用于根据客户提供的网页下载清单将所需下载的网页的网址写入脚本文件;
解析模块,用于解析该脚本文件,从目标网站服务器获取所述网页内容,并将所述网页链接保存到数据库及解析所述网页内容以获取目标内容;
转换模块,用于将目标内容中所有图片的相对链接转换成绝对链接及将目标内容中所有网页链接的相对链接转换成绝对链接;
下载模块,用于通过所述图片的绝对链接将目标内容中所有图片下载并保存到内部服务器;
储存模块,用于将目标内容中所有网页的绝对链接保存到数据库,同时生成所述网页绝对链接的标识符并将该标识符保存到数据库;及
替换模块,用于以目标内容中所有图片在内部服务器中的链接取代所述图片的绝对链接及用于将所述网页绝对链接的标识符与网页请求语言写入该网页在内部服务器中的链接,并以该写入标识符与网页请求语言的链接取代所述网页的绝对链接。
2.如权利要求1所述的下载网站静态网页的系统,其特征在于,该应用服务器还包括:
判断模块,用于判断所述取代后的网页链接所显示得网页中是否有需要继续下载的链接。
3.如权利要求1所述的下载网站静态网页的系统,其特征在于,所述储存模块还用于将替换模块取代后的目标内容保存到数据库。
4.如权利要求1所述的下载网站静态网页的系统,其特征在于,所述的脚本为一种基于可扩展标记语言的查询语言的脚本。
5.如权利要求1所述的下载网站静态网页的系统,其特征在于,所述解析模块解析脚本文件从目标网站服务器获取目标内容的同时还过滤掉目标内容中一些不需要的网页内容。
6.一种下载网站静态网页的方法,其特征在于,该方法包括如下步骤:
根据客户提供的网页下载清单将所需下载的网页的网址写入脚本文件;
解析该脚本文件,从目标网站服务器获取所述网页内容,并将所述网页链接保存到数据库;
解析所述网页内容以获取目标内容;
将目标内容中所有图片的相对链接转换成绝对链接;
通过所述绝对链接将目标内容中图片下载并保存到内部服务器;
以目标内容中所有图片在内部服务器中的链接取代所述图片的绝对链接;
将目标内容中所有网页的相对链接转换成绝对链接;
将目标内容中所有网页的绝对链接保存到数据库,同时生成所述网页绝对链接的标识符并将该标识符保存到数据库;及
将所述网页绝对链接的标识符与网页请求语言写入该网页在内部服务器中的链接,并以该写入标识符与网页请求语言的链接取代所述网页的绝对链接。
7.如权利要求6所述的下载网站静态网页的方法,其特征在于,该方法还包括步骤:
判断所述取代后的网页链接所显示的网页中是否有需要继续下载的链接;
若所述取代后的网页链接所显示的网页中没有需要继续下载的链接,则将取代后的目标内容保存到数据库。
8.如权利要求7所述的下载网站静态网页的方法,其特征在于,该方法还包括步骤:
若所述取代后的网页链接所显示的网页中有需要继续下载的链接,则返回至步骤解析所述网页内容来获取目标内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鸿富锦精密工业(深圳)有限公司;鸿海精密工业股份有限公司,未经鸿富锦精密工业(深圳)有限公司;鸿海精密工业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610062196.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水泥助磨剂及其制备方法
- 下一篇:距离指示系统和方法