[发明专利]一种基于分布式数据处理框架的数据采集分析系统在审
申请号: | 201810216708.9 | 申请日: | 2018-03-19 |
公开(公告)号: | CN110309413A | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 张卫东;张伟 | 申请(专利权)人: | 西安电子科技大学;张伟 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Storm和Hadoop分布式数据处理框架的数据采集分析系统,该系统的核心在于通过Storm和Hadoop这两种开源的分布式集群框架,构建稳定可扩展的底层数据流平台,构建智能反爬模块进行数据爬取中的对抗,多种web数据解析方式智能选择,数据格式化,数据分析和可视化。通过些模块的拼接,实现稳定,易于扩展,易于操作的数据采集分析系统,使得数据需求方拥有稳定快速的实时数据的机会,并可对感兴趣的数据进行多样化分析满足需求方的决策需求,适用于科研和企业决策所需数据的方方面面。 | ||
搜索关键词: | 数据采集分析系统 分布式数据处理 构建 分布式集群 数据格式化 数据需求方 数据流 企业决策 实时数据 数据分析 智能选择 可扩展 可视化 拼接 解析 智能 对抗 科研 决策 分析 | ||
【主权项】:
1.一种基于分布式数据处理框架的数据采集分析系统包括如下系统过程:(A)反爬对抗模块‑此模块使用了ip代理池切换,模拟浏览器头部访问,动态时延调度,PhantomJS渲染和模拟用户登录模块这5部分进行反爬对抗。(B)多种web数据解析模块‑此模块使用XML,HTML,JSON三种数据路径解析方式,对web数据进行提取。(C)数据纠错和格式化模块‑利用java机制构造各种异常捕获单元,对出现的异常数据进行处理;将采集的新闻,数字等信息根据规范进行数据格式化。(D)数据系统监控模块‑使用ELK,Nagios对采集数据以及集群状态进行监控。(E)数据可视化模块‑使用主流web前端技术,将数据统计分析,制作出各种图表在网页中实时展示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学;张伟,未经西安电子科技大学;张伟许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810216708.9/,转载请声明来源钻瓜专利网。