[发明专利]一种主题网络爬虫系统的设计方法无效
申请号: | 200910094834.2 | 申请日: | 2009-08-14 |
公开(公告)号: | CN101630327A | 公开(公告)日: | 2010-01-20 |
发明(设计)人: | 张云伟;汪斌;何庆华 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 昆明今威专利代理有限公司 | 代理人: | 何积国 |
地址: | 650093云南省昆明市*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向主题网络爬虫系统设计方法,该方法基于“最佳优先搜索策略”,主要包括以下步骤:(1)建立主题词库;(2)对爬取网页进行过滤,剔除主题相关度较低的网页(小于设定的阈值);(3)计算网页重要程度,确定网页的访问顺序;(4)建立4个URL队列:待分析的URL队列Waiting queue、正在分析的URL队列Running queue、分析完成的URL队列Completed queue、错误或抛弃的URL队列Exceptions queue。通过本发明所述设计方法,大大减少了爬虫的工作量,提高了爬行结果的准确率和全面率。 | ||
搜索关键词: | 一种 主题 网络 爬虫 系统 设计 方法 | ||
【主权项】:
1、一种主题网络爬虫系统的设计方法,其特征在于:本设计方法包括以下步骤:(1)、建立主题词库,确立搜索主题,为每个主题确立不同权值;(2)、设定阈值,对爬取网页进行过滤,剔除主题相关度低于设定阈值的网页;(3)、计算网页重要程度,确定网页的访问顺序;(4)、为方便主题爬虫处理链接和计算主题相关度,建立4个URL队列:待分析的URL队列Waiting queue、正在分析的URL队列Running queue、分析完成的URL队列Completedqueue、错误或抛弃的URL队列Exceptions queue。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200910094834.2/,转载请声明来源钻瓜专利网。
- 上一篇:用于射频识别系统的天线部署方法及装置
- 下一篇:确定自动机的空间压缩方法