[发明专利]一种基于分布式数据处理框架的数据采集分析系统在审

申请号：	201810216708.9	申请日：	2018-03-19
公开（公告）号：	CN110309413A	公开（公告）日：	2019-10-08
发明（设计）人：	张卫东;张伟	申请（专利权）人：	西安电子科技大学;张伟
主分类号：	G06F16/9535	分类号：	G06F16/9535
代理公司：	暂无信息	代理人：	暂无信息
地址：	710071***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据采集分析系统分布式数据处理构建分布式集群数据格式化数据需求方数据流企业决策实时数据数据分析智能选择可扩展可视化拼接解析智能对抗科研决策分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于Storm和Hadoop分布式数据处理框架的数据采集分析系统，该系统的核心在于通过Storm和Hadoop这两种开源的分布式集群框架，构建稳定可扩展的底层数据流平台，构建智能反爬模块进行数据爬取中的对抗，多种web数据解析方式智能选择，数据格式化，数据分析和可视化。通过些模块的拼接，实现稳定，易于扩展，易于操作的数据采集分析系统，使得数据需求方拥有稳定快速的实时数据的机会，并可对感兴趣的数据进行多样化分析满足需求方的决策需求，适用于科研和企业决策所需数据的方方面面。

技术领域

本发明涉及服务器系统框架领域，属于web搜索爬取技术在分布式服务器中的扩展应用，具体涉及反爬对抗，网页解析，信息纠错，数据格式化，分布式数据结构，适用于现代web 数据采集和分析的相关需求。

背景技术

因为搜索引擎的流行，网络爬虫已经成了很普及网络技术，除了专门做搜索的Google， Yahoo，微软，百度以外，几乎每个大型门户网站都有自己的搜索引擎，大大小小叫得出来名字得就几十种，还有各种不知名的几千几万种，对于一个内容型驱动的网站来说，受到网络爬虫的光顾是不可避免的。

一些智能的搜索引擎爬虫的爬取频率比较合理，对网站资源消耗比较少，但是很多糟糕的网络爬虫，对网页爬取能力很差，经常并发几十上百个请求循环重复抓取，这种爬虫对中小型网站往往是毁灭性打击，特别是一些缺乏爬虫编写经验的程序员写出来的爬虫破坏力极强，造成的网站访问压力会非常大，会导致网站访问速度缓慢，甚至无法访问。

本系统设计了以下5大模块：

1.反爬对抗模块

此模块使用了ip代理池切换，模拟浏览器头部访问，动态时延调度，PhantomJS渲染和模拟用户登录模块这5部分进行反爬对抗。

2.多种web数据解析模块

此模块使用XML，HTML,JSON三种数据路径解析方式，对web数据进行提取。

3.数据纠错和格式化模块

利用java机制构造各种异常捕获单元，对出现的异常数据进行处理；将采集的新闻，

数字等信息根据规范进行数据格式化。

4.数据系统监控模块

使用ELK,Nagios对采集数据以及集群状态进行监控。

5.数据可视化模块

使用主流web前端技术，将数据统计分析，制作出各种图表在网页中实时展示。

发明内容

本发明的目的在于克服上述现有技术的不足，提出了一种基于分布式数据处理框架的数据采集分析系统，用以实现稳定可扩展的网络数据采集分析的功能

本发明的具体思路是：将基于分布式流处理框架Storm的数据采集系统和基于分布式批处理框架Hadoop的数据分析展示系统通过Nosql型数据库相结合的方案，首先利用KVM虚拟机技术将实体机划分成数个虚拟服务器并安装Fedora系统，在这些虚拟服务器上部署安装 Storm和Hadoop的底层架构，在Storm底层架构基础上利用互联网爬虫技术实现分布式数据采集系统。通过Nosql型数据库做中间件，将采集到的数据分发到基于Hadoop的分布式数据分析展示系统中进行分析和展示。本分布式数据采集分析系统克服了传统数据采集分析系统稳定性差、可扩展性差、容错低以及不及时的缺点，实现了网络数据采集分析的稳定自动化。

本发明与现有技术相比具有如下优点

第一，本发明针对目前互联网公司采用的反爬取策略进行了5个方面的破解，使系统可以正常采集收据

第二，本发明数据采集使用多种数据路径解析方式，针对不同的数据格式进行有针对的爬取路径选择。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学;张伟，未经西安电子科技大学;张伟许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810216708.9/2.html，转载请声明来源钻瓜专利网。

上一篇：提供服饰搭配信息的方法、装置及电子设备
下一篇：内容推荐方法、内容推荐装置和电子设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于分布式数据处理框架的数据采集分析系统在审

专利文献下载