[发明专利]一种主题网络爬虫系统的设计方法无效

专利信息
申请号: 200910094834.2 申请日: 2009-08-14
公开(公告)号: CN101630327A 公开(公告)日: 2010-01-20
发明(设计)人: 张云伟;汪斌;何庆华 申请(专利权)人: 昆明理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 昆明今威专利代理有限公司 代理人: 何积国
地址: 650093云南省昆明市*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 主题 网络 爬虫 系统 设计 方法
【权利要求书】:

1、一种主题网络爬虫系统的设计方法,其特征在于:本设计方法包括以下步骤:

(1)、建立主题词库,确立搜索主题,为每个主题确立不同权值;

(2)、设定阈值,对爬取网页进行过滤,剔除主题相关度低于设定阈值的网页;

(3)、计算网页重要程度,确定网页的访问顺序;

(4)、为方便主题爬虫处理链接和计算主题相关度,建立4个URL队列:待分析的URL队列Waiting queue、正在分析的URL队列Running queue、分析完成的URL队列Completedqueue、错误或抛弃的URL队列Exceptions queue。

2、根据权利要求1所述的一种主题网络爬虫系统的设计方法,其特征在于:步骤(1)建立主题词库,确立搜索主题,为每个主题确立不同权值,得到本方法的主题词库,其步骤包括:

1)、给定一个跟主题信息主题有关的网页集合,该网页集合来自建立的专业网站数据库,具有有代表性和全面概括性,由程序自动将这些网页里面共同的特征进行提取,并根据频率确定权值;

2)、手工设置一组关于主题信息的关键词并分配权值。

3、根据权利要求1所述的一种主题网络爬虫系统的设计方法,其特征在于:步骤2对爬取网页进行过滤,剔除主题相关度低于设定阈值的网页,其实现方法:采用向量空间模型算法(Vector Space Model,VSM)计算网页主题相关度,实现网页过滤。

4、根据权利要求1所述的一种主题网络爬虫系统的设计方法,其特征在于:步骤3计算网页重要程度,确定网页的访问顺序,其实现方法:应用超链接分析算法来判断URL的重要性,从而得到网页的重要程度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910094834.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top