[发明专利]用于定位万维网页以及计算机网络文件的系统和方法无效
申请号: | 200510006803.9 | 申请日: | 1996-12-10 |
公开(公告)号: | CN1811757A | 公开(公告)日: | 2006-08-02 |
发明(设计)人: | 露易斯·M.·墨尼尔 | 申请(专利权)人: | 奥弗图尔服务公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 | 代理人: | 董方源 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种用于快速提取和分析WWW上或计算机网络上Web页的Web crawler系统和方法,该系统和方法包括存贮在随机存取存储器上的散列表和一个顺序Web信息文件。对于系统已知的每个Web页,Web crawler系统在顺序磁盘文件中存储一个表目,在散列表中存储一个较小的表目。该散列表表目包括一个指纹值、一个提取标志和一个文件定位指示器,其中仅当成功提取到相应的Web页时,才将提取标志设置为真,而文件定位指示项表示相应表目在顺序磁盘文件中的位置。每个顺序磁盘文件表目包括相应Web页的URL,以及该Web页提取状态信息。对Web页信息磁盘文件的所有访问,是利用输入缓冲区顺序进行的,从而消除了对Web信息磁盘文件的随机存取,并且最大限度地降低了磁盘访问所引起的等待时间。 | ||
搜索关键词: | 用于 定位 万维网 以及 计算机网络 文件 系统 方法 | ||
【主权项】:
1.一种用于定位数据集的系统,该数据集包括存储在远程访问计算机上的Web页,各个Web页具有唯一URL,至少部分所述Web页含有链接到其他一些Web页的URL链接,该系统包括:一个通信接口,该接口根据相应的URL,从所述远程计算机中提取特定的Web页;一个Web信息文件,具有表目集,每个表目对于相应Web页指示URL和提取状态信息;一个Web信息表,存储在RAM中,具有一组表目,每个表目代表相应Web页的指纹函数值和提取状态信息;和实现由该系统执行的Web scooter过程的装置,该过程用于提取和分析Web页,所述Web scooter过程包括以下指令:根据所述提取状态信息,提取其Web信息文件表目满足既定选择准则的Web页的指令;确定Web信息表中是否存储有每个收到的Web页中的各URL链接的相应表目的指令;以及对于Web信息表中没有其对应表目的各URL链接,在Web信息表中添加新表目和在Web信息文件中添加相应的新表目的指令。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥弗图尔服务公司,未经奥弗图尔服务公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200510006803.9/,转载请声明来源钻瓜专利网。
- 上一篇:纳米二氧化锡颗粒原位包裹碳纳米管复合粉体及制备方法
- 下一篇:退扭放线装置