[发明专利]一种智能化网络信息采集系统及采集方法在审

专利信息
申请号: 202010883237.4 申请日: 2020-08-28
公开(公告)号: CN112182462A 公开(公告)日: 2021-01-05
发明(设计)人: 尤媛媛;李梁 申请(专利权)人: 镇江智越智能科技有限公司
主分类号: G06F16/958 分类号: G06F16/958;H04L29/08;G06F40/126;G06F16/335
代理公司: 北京欣鼎专利代理事务所(普通合伙) 11834 代理人: 王阳虹
地址: 212000 江苏省镇江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 智能化 网络 信息 采集 系统 方法
【说明书】:

发明公开了一种智能化网络信息采集系统及采集方法,包括网络服务器、任务管理器、任务分配器和信息采集器,所述网络服务器与网页数据提取器连接,所述网页数据提取器与任务管理器连接,所述任务管理器与任务分配器连接,所述任务分配器与信息采集器连接;所述网络服务器用于根据web协议获取网页中的图片和文字数据;所述网页数据提取器用于提取网页中的图片和文字数据。本发明智能化的网络信息采集系统可参考信息采集服务器当前的任务分配及完成情况,针对常用网页的访问量执行任务分配工作,从而提高了信息采集效率,并且仅存储常用网页的数据,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,有利于人们的使用。

技术领域

本发明涉及技术领域,具体为一种智能化网络信息采集系统及采集方法。

背景技术

在网络信息爆炸的时代,信息量变得极度庞大,在铺天盖地的信息海洋中搜索到有价值的信息变得越来越困难,因此,为了解决这一问题,现在已经有很多利用到一些机器的学习方法,比如可以基于用户的请求来预测的网页排序方法等,但即使使用非常复杂的排名算法,但如果没有设定主题索引,即使是再好的信息抓取工具也可能无法检索到该网页中有效的信息。

为了提供更精准更高效的搜索服务,信息采集系统通常会通过多台服务器节点从各大网站采集所需信息,然而,出于安全考虑,众多网站服务器开始针对同一终端的单日访问量进行限制,并对一日或一段时间内的访问量超过设定访问上限的终端实施IP封锁的“惩诫”,由于现有的信息采集系统的任务分配机制缺乏灵活性,造成了系统资源的浪费,同时降低了信息采集效率。

发明内容

本发明的目的在于提供一种智能化网络信息采集系统及采集方法,具备任务分配机制灵活,且降低硬件和网络资源,提高页面更新效率的优点。

为实现上述目的,本发明提供如下技术方案:一种智能化网络信息采集系统,包括网络服务器、任务管理器、任务分配器和信息采集器,所述网络服务器与网页数据提取器连接,所述网页数据提取器与任务管理器连接,所述任务管理器与任务分配器连接,所述任务分配器与信息采集器连接;

所述网络服务器用于根据web协议获取网页中的图片和文字数据;

所述网页数据提取器用于提取网页中的图片和文字数据;

所述任务管理器用于管理数据库,并存储网页中的图片和文字数据,保存网页的使用规则;

所述任务分配器用于对采集到的任务进行分配及任务完成情况进行反馈,所述任务分配器对信息采集器在设定的缓冲周期内针对常用网页的访问次数判断及选择信息采集器中当前最适于执行信息采集工作的信息采集器,以及常用网站中当前最适于访问的目标网站,并将信息采集任务分配到当前最适于访问的目标网站的信息采集器;

所述信息采集器用于接收采集任务,并将采集的任务添加至任务分配器,所述信息采集器用于对分配到其的信息采集任务的目标网站进行访问及下载。

优选的,所述网络服务器在获取网页中的图片和文字数据的过程中,通过至少HTTP,FTP,Gopher以及BBS中的一种或者多种方式的Web协议获取网页的数据。

优选的,所述信息采集器用于下载目标网站的规则,且依据该规则对网络信息进行采集,且将采集的结果上传至数据库。

优选的,所述任务分配器用于对信息采集器的采集结果进行分析处理,然后进行数据统计得到统计结果,并将统计结构上传至数据库。

一种智能化网络信息采集方法,包括以下步骤:

S1:根据web协议获取网页中的数据,提取得到网页中的元素数据,并将提取的元数据储存在数据库中;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镇江智越智能科技有限公司,未经镇江智越智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010883237.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top