[发明专利]一种智能化的网络信息采集方法及网络信息采集系统在审
申请号: | 201410545367.1 | 申请日: | 2014-10-15 |
公开(公告)号: | CN105577718A | 公开(公告)日: | 2016-05-11 |
发明(设计)人: | 许晓加;杨星星;黄雅静;张耀武;李海平;刘劲松;高宝兵;陈国锐 | 申请(专利权)人: | 卓望数码技术(深圳)有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F17/30 |
代理公司: | 深圳市顺天达专利商标代理有限公司 44217 | 代理人: | 李琴 |
地址: | 518057 广东省深圳市南山区高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能化 网络 信息 采集 方法 系统 | ||
1.一种智能化的网络信息采集方法,其特征在于,包括以下步骤;
S1、判断多台信息采集服务器中当前最适于执行信息采集工作的信息采 集服务器及多个常用网站中当前最适于访问的目标网站,将信息采集任务分 配到该台信息采集服务器,并指令该台信息采集服务器根据分配到其的信息 采集任务对该目标网站服务器进行访问及下载所需的网络信息;
S2、判断是否接收到由该台信息采集服务器返回的网络信息,并在接收 到该网络信息时,对该网络信息进行整理及将整理后的网络信息存入数据库。
2.根据权利要求1所述的智能化的网络信息采集方法,其特征在于,在 所述步骤S1之前还包括如下步骤:
SO、将多个常用网站的多个URL信息预存到任务分配及调度中心。
3.根据权利要求2所述的智能化的网络信息采集方法,其特征在于,所 述步骤S1中所述判断多台信息采集服务器中当前最适于执行信息采集工作的 信息采集服务器及多个常用网站中当前最适于访问的目标网站,将信息采集 任务分配到该台信息采集服务器的步骤包括:
S11、对各台信息采集服务器的信息采集任务分配及完成情况进行实时监 控;
S12、累计设定的第一时间阈值T1内各台信息采集服务器针对各大网站 的访问次数;
S13、基于各台信息采集服务器当前的信息采集任务分配及完成情况,每 台信息采集服务器在第一时间阈值T1内针对各大网站的访问次数,以及各台 信息采集服务器的当前网络状况判断该多台信息采集服务器中当前最适于执 行信息采集工作的信息采集服务器。
4.根据权利要求3所述的智能化的网络信息采集方法,其特征在于,所 述步骤S1中所述判断多台信息采集服务器中当前最适于执行信息采集工作的 信息采集服务器及多个常用网站中当前最适于访问的目标网站,将信息采集 任务分配到该台信息采集服务器的步骤还包括:
S14、基于该多台信息采集服务器在该第一时间阈值T1内针对该多个常 用网站分别进行的访问次数从该多个常用网站中选择当前最适于访问的目标 网站;
S15、查找数据库中该目标网站的URL,将包含有该目标网站的URL及第 一关键词的网络信息采集任务分配到该当前最适于执行信息采集工作的信息 采集服务器。
5.根据权利要求4所述的智能化的网络信息采集方法,其特征在于,所 述步骤S1中指令该台信息采集服务器根据分配到其的信息收集任务对该目标 网站服务器进行访问及下载所需的网络信息的步骤包括:
S16、对该网络信息采集任务中目标网站的URL所链接到的网站服务器进 行访问,查找该网站服务器存储的包含有该第一关键词的所有URL;
S17、链接到所查找的每一个URL的网页页面,并下载该网页页面所包含 的所有有效的网络信息。
6.根据权利要求5所述的智能化的网络信息采集方法,其特征在于,在 所述步骤S17与所述步骤S2之前还包括如下步骤:
S172、将第二关键词输入该台信息采集服务器,并指令该台信息采集服 务器依给定的第二关键词对其下载的网络信息进行过滤以从中筛选出包含有 第二关键词的网络信息。
7.根据权利要求6所述的智能化的网络信息采集方法,其特征在于,所 述步骤S2中判断是否接收到由该台信息采集服务器传回的网络信息的步骤包 括:
判断是否在设定的第二时间阈值T2内接收到由该台信息采集服务器返回 的经过滤的网络信息;如未在该第二时间阈值T2内接收到该网络信息,则判 定该台信息采集服务器执行任务超时,指令该台信息采集服务器停止该超时 的信息采集任务,并对该信息采集任务进行重新调度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于卓望数码技术(深圳)有限公司,未经卓望数码技术(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410545367.1/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置