[发明专利]一种基于大数据的数据处理系统在审
申请号: | 201810638424.9 | 申请日: | 2018-06-20 |
公开(公告)号: | CN109033168A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 曹宏 | 申请(专利权)人: | 江苏网域科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州创策知识产权代理有限公司 32322 | 代理人: | 杨阳 |
地址: | 212000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大数据 数据处理系统 数据平台 数据采集模块 存储模块 使用数据 数据存储 数据分类 数据集中 数据隐私 数据整合 业务系统 整体数据 重要资产 大模块 清洗 安全 保证 统一 管理 | ||
1.一种基于大数据的数据处理系统,其特征在于,包括数据采集模块和数据分类存储模块两大模块;
所述数据采集模块采集三类数据,这三类数据为内部业务系统产生的结构化数据、企业内部非结构化数据和企业外部数据,所述内部业务系统产生的结构化数据包括大数据平台提倡大数据业务处理过程中产生的结构化数据和大数据日常业务处理过程中产生的机构化数据,内部业务系统产生的机构化数据采集时,调用Perl文件模块相关函数、轮询制定目录,获取数据文件,Prel锥形文件级数据质量检查,调用HiveLoad数据命令,加载到数据平台临时数据器的Hive able数据命令,加载到数据平台临时数据区的HiveTable;所述企业内部非结构化数据包括日常业务处理过程中产生的非结构化数据,其存储形式多样,所述企业外部数据以非结构化为主,主要包括国家政策法规、论坛等互联网信息、地理位置等移动信息和社交媒体信息,企业内部非结构化数据和企业外部数据采集时,大数据源以SFTP协议批量传输数据文件,开发Java或C应用,调用数据源API,或以网络平台爬虫方式赚取源系统非结构化、半结构化数据;
所述数据分类存储模块整个流程包括三个步骤,具体为:步骤一流程调度层批量处理流程:批量数据处理有流程调度层部署的自定义开大WorkFlow组件调度运行;步骤二流程调度层实时数据处理流程:实时数据处理强调的事实时会准实时获取并处理数据,通常采取消息列队等技术构建数据流,整个处理流程由流程调度层部署的自定义开发WorkFlow组件调度运行;步骤三流程调度层归档数据处理流程:数据归档的对象包括业务系统数据文件、贴源数据区数据、主题数据区数据、大数据区诗句和及时数据区数据,数据按照生命周期规划存储到归档区Hadoop集群,归档后元数据区删除此数据。
2.如权利要求1所述的一种基于大数据的数据处理系统,其特征在于,所述流程调度层批量处理流程整个流程主要完成如下工作:获取业务系统结构化数据,存入临时数据区,获取企业内外部非结构化数据,并进行结构化处理,存入主体会集市数据器,按照铁元数据模型整合数据,按照主体数据模型整合数据并生成汇总,数据加工计算后,结果交付到数据集市,支撑分析类应用。
3.如权利要求1所述的一种基于大数据的数据处理系统,其特征在于,所述流程调度层批量处理流程主要完成以下工作:通过数据库数据交换组件获取增量数据,加载到实时数据区,通过大数据交换组件获取非结构化数据,bong利用Storm处理数据,加载到实时数据区,针对实时数据区数据执行标准化处理和贴源整合。
4.如权利要求1所述的一种基于大数据的数据处理系统,其特征在于,所述流程调度层归档数据处理流程整个处理流程由流程调度层部署的自定义开发WorkFlow组件调度运行,整个流程主要完成以下工作:数据文件通过HDFS命令行copyfromlocal进行归档,贴源、主题和大数据区通过HDFS命令行distcp或自定义开发的MR程序执行归档,及时数据区通过sqoop或数据库提供的Hadoop集成技术执行归档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏网域科技有限公司,未经江苏网域科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810638424.9/1.html,转载请声明来源钻瓜专利网。