[发明专利]一种基于分布式数据处理框架的数据采集分析系统在审
申请号: | 201810216708.9 | 申请日: | 2018-03-19 |
公开(公告)号: | CN110309413A | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 张卫东;张伟 | 申请(专利权)人: | 西安电子科技大学;张伟 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据采集分析系统 分布式数据处理 构建 分布式集群 数据格式化 数据需求方 数据流 企业决策 实时数据 数据分析 智能选择 可扩展 可视化 拼接 解析 智能 对抗 科研 决策 分析 | ||
本发明公开了一种基于Storm和Hadoop分布式数据处理框架的数据采集分析系统,该系统的核心在于通过Storm和Hadoop这两种开源的分布式集群框架,构建稳定可扩展的底层数据流平台,构建智能反爬模块进行数据爬取中的对抗,多种web数据解析方式智能选择,数据格式化,数据分析和可视化。通过些模块的拼接,实现稳定,易于扩展,易于操作的数据采集分析系统,使得数据需求方拥有稳定快速的实时数据的机会,并可对感兴趣的数据进行多样化分析满足需求方的决策需求,适用于科研和企业决策所需数据的方方面面。
技术领域
本发明涉及服务器系统框架领域,属于web搜索爬取技术在分布式服务器中的扩展应用,具体涉及反爬对抗,网页解析,信息纠错,数据格式化,分布式数据结构,适用于现代web 数据采集和分析的相关需求。
背景技术
因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google, Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。
一些智能的搜索引擎爬虫的爬取频率比较合理,对网站资源消耗比较少,但是很多糟糕的网络爬虫,对网页爬取能力很差,经常并发几十上百个请求循环重复抓取,这种爬虫对中小型网站往往是毁灭性打击,特别是一些缺乏爬虫编写经验的程序员写出来的爬虫破坏力极强,造成的网站访问压力会非常大,会导致网站访问速度缓慢,甚至无法访问。
本系统设计了以下5大模块:
1.反爬对抗模块
此模块使用了ip代理池切换,模拟浏览器头部访问,动态时延调度,PhantomJS渲染和模拟用户登录模块这5部分进行反爬对抗。
2.多种web数据解析模块
此模块使用XML,HTML,JSON三种数据路径解析方式,对web数据进行提取。
3.数据纠错和格式化模块
利用java机制构造各种异常捕获单元,对出现的异常数据进行处理;将采集的新闻,
数字等信息根据规范进行数据格式化。
4.数据系统监控模块
使用ELK,Nagios对采集数据以及集群状态进行监控。
5.数据可视化模块
使用主流web前端技术,将数据统计分析,制作出各种图表在网页中实时展示。
发明内容
本发明的目的在于克服上述现有技术的不足,提出了一种基于分布式数据处理框架的数据采集分析系统,用以实现稳定可扩展的网络数据采集分析的功能
本发明的具体思路是:将基于分布式流处理框架Storm的数据采集系统和基于分布式批处理框架Hadoop的数据分析展示系统通过Nosql型数据库相结合的方案,首先利用KVM虚拟机技术将实体机划分成数个虚拟服务器并安装Fedora系统,在这些虚拟服务器上部署安装 Storm和Hadoop的底层架构,在Storm底层架构基础上利用互联网爬虫技术实现分布式数据采集系统。通过Nosql型数据库做中间件,将采集到的数据分发到基于Hadoop的分布式数据分析展示系统中进行分析和展示。本分布式数据采集分析系统克服了传统数据采集分析系统稳定性差、可扩展性差、容错低以及不及时的缺点,实现了网络数据采集分析的稳定自动化。
本发明与现有技术相比具有如下优点
第一,本发明针对目前互联网公司采用的反爬取策略进行了5个方面的破解,使系统可以正常采集收据
第二,本发明数据采集使用多种数据路径解析方式,针对不同的数据格式进行有针对的爬取路径选择。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学;张伟,未经西安电子科技大学;张伟许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810216708.9/2.html,转载请声明来源钻瓜专利网。