[发明专利]用于定位万维网页以及计算机网络文件的系统和方法无效

专利信息
申请号: 200510006803.9 申请日: 1996-12-10
公开(公告)号: CN1811757A 公开(公告)日: 2006-08-02
发明(设计)人: 露易斯·M.·墨尼尔 申请(专利权)人: 奥弗图尔服务公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京东方亿思知识产权代理有限责任公司 代理人: 董方源
地址: 美国加利*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种用于快速提取和分析WWW上或计算机网络上Web页的Web crawler系统和方法,该系统和方法包括存贮在随机存取存储器上的散列表和一个顺序Web信息文件。对于系统已知的每个Web页,Web crawler系统在顺序磁盘文件中存储一个表目,在散列表中存储一个较小的表目。该散列表表目包括一个指纹值、一个提取标志和一个文件定位指示器,其中仅当成功提取到相应的Web页时,才将提取标志设置为真,而文件定位指示项表示相应表目在顺序磁盘文件中的位置。每个顺序磁盘文件表目包括相应Web页的URL,以及该Web页提取状态信息。对Web页信息磁盘文件的所有访问,是利用输入缓冲区顺序进行的,从而消除了对Web信息磁盘文件的随机存取,并且最大限度地降低了磁盘访问所引起的等待时间。
搜索关键词: 用于 定位 万维网 以及 计算机网络 文件 系统 方法
【主权项】:
1.一种用于定位数据集的系统,该数据集包括存储在远程访问计算机上的Web页,各个Web页具有唯一URL,至少部分所述Web页含有链接到其他一些Web页的URL链接,该系统包括:一个通信接口,该接口根据相应的URL,从所述远程计算机中提取特定的Web页;一个Web信息文件,具有表目集,每个表目对于相应Web页指示URL和提取状态信息;一个Web信息表,存储在RAM中,具有一组表目,每个表目代表相应Web页的指纹函数值和提取状态信息;和实现由该系统执行的Web scooter过程的装置,该过程用于提取和分析Web页,所述Web scooter过程包括以下指令:根据所述提取状态信息,提取其Web信息文件表目满足既定选择准则的Web页的指令;确定Web信息表中是否存储有每个收到的Web页中的各URL链接的相应表目的指令;以及对于Web信息表中没有其对应表目的各URL链接,在Web信息表中添加新表目和在Web信息文件中添加相应的新表目的指令。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥弗图尔服务公司,未经奥弗图尔服务公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200510006803.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top