[发明专利]一种基于大数据的数据处理系统在审
申请号: | 201810638424.9 | 申请日: | 2018-06-20 |
公开(公告)号: | CN109033168A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 曹宏 | 申请(专利权)人: | 江苏网域科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州创策知识产权代理有限公司 32322 | 代理人: | 杨阳 |
地址: | 212000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于大数据的数据处理系统,包括数据采集模块和数据分类存储模块两大模块;本发明通过数据平台对大数据进行统一、完整的前期管理,通过数据平台实现数据集中,确保大数据各级部门均可在保证数据隐私和安全的前提下使用数据,充分发挥数据作为企业重要资产的而业务价值,从中长期看,数据存储对大数据分散在各个业务系统中的数据整合、清洗,有助于企业整体数据质量的改善,提高了数据的实用性。 | ||
搜索关键词: | 大数据 数据处理系统 数据平台 数据采集模块 存储模块 使用数据 数据存储 数据分类 数据集中 数据隐私 数据整合 业务系统 整体数据 重要资产 大模块 清洗 安全 保证 统一 管理 | ||
【主权项】:
1.一种基于大数据的数据处理系统,其特征在于,包括数据采集模块和数据分类存储模块两大模块;所述数据采集模块采集三类数据,这三类数据为内部业务系统产生的结构化数据、企业内部非结构化数据和企业外部数据,所述内部业务系统产生的结构化数据包括大数据平台提倡大数据业务处理过程中产生的结构化数据和大数据日常业务处理过程中产生的机构化数据,内部业务系统产生的机构化数据采集时,调用Perl文件模块相关函数、轮询制定目录,获取数据文件,Prel锥形文件级数据质量检查,调用HiveLoad数据命令,加载到数据平台临时数据器的Hive able数据命令,加载到数据平台临时数据区的HiveTable;所述企业内部非结构化数据包括日常业务处理过程中产生的非结构化数据,其存储形式多样,所述企业外部数据以非结构化为主,主要包括国家政策法规、论坛等互联网信息、地理位置等移动信息和社交媒体信息,企业内部非结构化数据和企业外部数据采集时,大数据源以SFTP协议批量传输数据文件,开发Java或C应用,调用数据源API,或以网络平台爬虫方式赚取源系统非结构化、半结构化数据;所述数据分类存储模块整个流程包括三个步骤,具体为:步骤一流程调度层批量处理流程:批量数据处理有流程调度层部署的自定义开大WorkFlow组件调度运行;步骤二流程调度层实时数据处理流程:实时数据处理强调的事实时会准实时获取并处理数据,通常采取消息列队等技术构建数据流,整个处理流程由流程调度层部署的自定义开发WorkFlow组件调度运行;步骤三流程调度层归档数据处理流程:数据归档的对象包括业务系统数据文件、贴源数据区数据、主题数据区数据、大数据区诗句和及时数据区数据,数据按照生命周期规划存储到归档区Hadoop集群,归档后元数据区删除此数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏网域科技有限公司,未经江苏网域科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810638424.9/,转载请声明来源钻瓜专利网。