[发明专利]一种基于分布式数据处理框架的数据采集分析系统在审
申请号: | 201810216708.9 | 申请日: | 2018-03-19 |
公开(公告)号: | CN110309413A | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 张卫东;张伟 | 申请(专利权)人: | 西安电子科技大学;张伟 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据采集分析系统 分布式数据处理 构建 分布式集群 数据格式化 数据需求方 数据流 企业决策 实时数据 数据分析 智能选择 可扩展 可视化 拼接 解析 智能 对抗 科研 决策 分析 | ||
1.一种基于分布式数据处理框架的数据采集分析系统包括如下系统过程:
(A)反爬对抗模块-此模块使用了ip代理池切换,模拟浏览器头部访问,动态时延调度,PhantomJS渲染和模拟用户登录模块这5部分进行反爬对抗。
(B)多种web数据解析模块-此模块使用XML,HTML,JSON三种数据路径解析方式,对web数据进行提取。
(C)数据纠错和格式化模块-利用java机制构造各种异常捕获单元,对出现的异常数据进行处理;将采集的新闻,数字等信息根据规范进行数据格式化。
(D)数据系统监控模块-使用ELK,Nagios对采集数据以及集群状态进行监控。
(E)数据可视化模块-使用主流web前端技术,将数据统计分析,制作出各种图表在网页中实时展示。
2.根据权利要求1所述的一种基于Storm和Hadoop分布式数据处理框架的数据采集分析系统,其中A过程所述的5部分反爬策略联合动态适配进行web数据获取的方法,是软件实现的智能调度模式。
3.根据权利要求1所述的一种基于Storm和Hadoop分布式数据处理框架的数据采集分析系统,其中过程B所述的三种解析方式实现方法为Xpath,Selector,DOM树通过java语言实现的数据解析。
4.根据权利要求1所述的一种基于Storm和Hadoop分布式数据处理框架的数据采集分析系统,其中过程C数据纠错技术通过java的异常抛出机制进行实现,而数据格式化通过正则表达式进行数据信息的规整。
5.根据权利要求1所述的一种基于Storm和Hadoop分布式数据处理框架的数据采集分析系统,其中过程D采用开源软件ELK,Nagios进行数据系统的软件和硬件性能的整体监控方案。
6.根据权利要求1所述的一种基于Storm和Hadoop分布式数据处理框架的数据采集分析系统,其中过程E将采集的数据通过前端技术,以柱状图,饼状图,百分图的形式提供展示,可以通过web请求到所需要的数据的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学;张伟,未经西安电子科技大学;张伟许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810216708.9/1.html,转载请声明来源钻瓜专利网。