[发明专利]一种主题网络爬虫系统的设计方法无效
申请号: | 200910094834.2 | 申请日: | 2009-08-14 |
公开(公告)号: | CN101630327A | 公开(公告)日: | 2010-01-20 |
发明(设计)人: | 张云伟;汪斌;何庆华 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 昆明今威专利代理有限公司 | 代理人: | 何积国 |
地址: | 650093云南省昆明市*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 主题 网络 爬虫 系统 设计 方法 | ||
1、一种主题网络爬虫系统的设计方法,其特征在于:本设计方法包括以下步骤:
(1)、建立主题词库,确立搜索主题,为每个主题确立不同权值;
(2)、设定阈值,对爬取网页进行过滤,剔除主题相关度低于设定阈值的网页;
(3)、计算网页重要程度,确定网页的访问顺序;
(4)、为方便主题爬虫处理链接和计算主题相关度,建立4个URL队列:待分析的URL队列Waiting queue、正在分析的URL队列Running queue、分析完成的URL队列Completedqueue、错误或抛弃的URL队列Exceptions queue。
2、根据权利要求1所述的一种主题网络爬虫系统的设计方法,其特征在于:步骤(1)建立主题词库,确立搜索主题,为每个主题确立不同权值,得到本方法的主题词库,其步骤包括:
1)、给定一个跟主题信息主题有关的网页集合,该网页集合来自建立的专业网站数据库,具有有代表性和全面概括性,由程序自动将这些网页里面共同的特征进行提取,并根据频率确定权值;
2)、手工设置一组关于主题信息的关键词并分配权值。
3、根据权利要求1所述的一种主题网络爬虫系统的设计方法,其特征在于:步骤2对爬取网页进行过滤,剔除主题相关度低于设定阈值的网页,其实现方法:采用向量空间模型算法(Vector Space Model,VSM)计算网页主题相关度,实现网页过滤。
4、根据权利要求1所述的一种主题网络爬虫系统的设计方法,其特征在于:步骤3计算网页重要程度,确定网页的访问顺序,其实现方法:应用超链接分析算法来判断URL的重要性,从而得到网页的重要程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910094834.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于射频识别系统的天线部署方法及装置
- 下一篇:确定自动机的空间压缩方法