[发明专利]一种基于分布式数据处理框架的数据采集分析系统在审

专利信息
申请号: 201810216708.9 申请日: 2018-03-19
公开(公告)号: CN110309413A 公开(公告)日: 2019-10-08
发明(设计)人: 张卫东;张伟 申请(专利权)人: 西安电子科技大学;张伟
主分类号: G06F16/9535 分类号: G06F16/9535
代理公司: 暂无信息 代理人: 暂无信息
地址: 710071*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据采集分析系统 分布式数据处理 构建 分布式集群 数据格式化 数据需求方 数据流 企业决策 实时数据 数据分析 智能选择 可扩展 可视化 拼接 解析 智能 对抗 科研 决策 分析
【说明书】:

发明公开了一种基于Storm和Hadoop分布式数据处理框架的数据采集分析系统,该系统的核心在于通过Storm和Hadoop这两种开源的分布式集群框架,构建稳定可扩展的底层数据流平台,构建智能反爬模块进行数据爬取中的对抗,多种web数据解析方式智能选择,数据格式化,数据分析和可视化。通过些模块的拼接,实现稳定,易于扩展,易于操作的数据采集分析系统,使得数据需求方拥有稳定快速的实时数据的机会,并可对感兴趣的数据进行多样化分析满足需求方的决策需求,适用于科研和企业决策所需数据的方方面面。

技术领域

本发明涉及服务器系统框架领域,属于web搜索爬取技术在分布式服务器中的扩展应用,具体涉及反爬对抗,网页解析,信息纠错,数据格式化,分布式数据结构,适用于现代web 数据采集和分析的相关需求。

背景技术

因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google, Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。

一些智能的搜索引擎爬虫的爬取频率比较合理,对网站资源消耗比较少,但是很多糟糕的网络爬虫,对网页爬取能力很差,经常并发几十上百个请求循环重复抓取,这种爬虫对中小型网站往往是毁灭性打击,特别是一些缺乏爬虫编写经验的程序员写出来的爬虫破坏力极强,造成的网站访问压力会非常大,会导致网站访问速度缓慢,甚至无法访问。

本系统设计了以下5大模块:

1.反爬对抗模块

此模块使用了ip代理池切换,模拟浏览器头部访问,动态时延调度,PhantomJS渲染和模拟用户登录模块这5部分进行反爬对抗。

2.多种web数据解析模块

此模块使用XML,HTML,JSON三种数据路径解析方式,对web数据进行提取。

3.数据纠错和格式化模块

利用java机制构造各种异常捕获单元,对出现的异常数据进行处理;将采集的新闻,

数字等信息根据规范进行数据格式化。

4.数据系统监控模块

使用ELK,Nagios对采集数据以及集群状态进行监控。

5.数据可视化模块

使用主流web前端技术,将数据统计分析,制作出各种图表在网页中实时展示。

发明内容

本发明的目的在于克服上述现有技术的不足,提出了一种基于分布式数据处理框架的数据采集分析系统,用以实现稳定可扩展的网络数据采集分析的功能

本发明的具体思路是:将基于分布式流处理框架Storm的数据采集系统和基于分布式批处理框架Hadoop的数据分析展示系统通过Nosql型数据库相结合的方案,首先利用KVM虚拟机技术将实体机划分成数个虚拟服务器并安装Fedora系统,在这些虚拟服务器上部署安装 Storm和Hadoop的底层架构,在Storm底层架构基础上利用互联网爬虫技术实现分布式数据采集系统。通过Nosql型数据库做中间件,将采集到的数据分发到基于Hadoop的分布式数据分析展示系统中进行分析和展示。本分布式数据采集分析系统克服了传统数据采集分析系统稳定性差、可扩展性差、容错低以及不及时的缺点,实现了网络数据采集分析的稳定自动化。

本发明与现有技术相比具有如下优点

第一,本发明针对目前互联网公司采用的反爬取策略进行了5个方面的破解,使系统可以正常采集收据

第二,本发明数据采集使用多种数据路径解析方式,针对不同的数据格式进行有针对的爬取路径选择。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学;张伟,未经西安电子科技大学;张伟许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810216708.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top