[发明专利]一种数据处理方法、系统、终端设备和存储介质在审
申请号: | 201911283698.1 | 申请日: | 2019-12-13 |
公开(公告)号: | CN111046031A | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 王海波;房中卫;吕志军 | 申请(专利权)人: | 智器云南京信息科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458;G06F16/25;G06F16/182 |
代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 杨用玲 |
地址: | 210022 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 系统 终端设备 存储 介质 | ||
本发明提供了一种数据处理方法、系统、终端设备和存储介质,其方法包括:通过JobClient节点提交数据治理任务至对应的JobTracker节点;通过JobTracker节点转发数据治理任务至空闲状态下的TaskTracker节点;通过TaskTracker节点从HDFS服务器下载与数据治理任务匹配的数据治理功能配置包至本地;通过TaskTracker节点根据数据治理功能配置包执行对应的数据处理流程。本发明提高数据治理系统的易用和稳定性,实现高可用、高性能、高可扩展和高可维护性的数据治理。
技术领域
本发明涉及数据处理技术领域,尤指一种数据处理方法、系统、终端设备和存储介质。
背景技术
对外部海量数据的系统分析前提,是要把外部海量数据进行抽取、清洗、转换、入库。但是外部待处理的数据量大、并发高、占用内存大,如果数据治理功能和其他功能是同一个Java线程,数据治理流程导致的内存溢出或者其他问题将会影响整个系统的使用;即使数据治理功能独立部署,如果不能横向多节点扩展,不仅处理能力受限,而且也不支持高可用。
如何提高数据治理系统的易用和稳定性,实现高可用、高性能、高可扩展和高可维护性的数据治理是亟需解决的问题。
发明内容
本发明的目的是提供一种数据处理方法、系统、终端设备和存储介质,实现提高数据治理系统的易用和稳定性,实现高可用、高性能、高可扩展和高可维护性的数据治理。
本发明提供的技术方案如下:
本发明提供一种数据处理方法,包括步骤:
通过JobClient节点提交数据治理任务至对应的JobTracker节点;
通过所述JobTracker节点转发所述数据治理任务至空闲状态下的TaskTracker节点;
通过所述TaskTracker节点从HDFS服务器下载与所述数据治理任务匹配的数据治理功能配置包至本地;
通过所述TaskTracker节点根据所述数据治理功能配置包执行对应的数据处理流程。
进一步的,所述通过JobClient节点提交数据治理任务至对应的JobTracker节点之前包括步骤:
获取数据治理功能配置包并上传至HDFS服务器;
对LTS分布式框架的JobTracker节点和TaskTracker节点进行模块化部署。
进一步的,所述对LTS分布式框架的JobTracker节点和TaskTracker节点进行模块化部署包括步骤:
根据环境配置包对设置所述JobTracker节点和TaskTracker节点的集群名称和注册地址一致。
进一步的,所述通过所述TaskTracker节点根据所述数据治理功能配置包执行对应的数据处理流程包括步骤:
启动Java子进程,由所述Java子进程执行所述数据治理功能配置包进行对应的数据处理流程;所述数据处理流程包括数据抽取、数据清洗、数据转换、数据入库、数据回滚;
通过所述TaskTracker节点反馈所述数据治理任务对应任务执行结果至提交所述数据治理任务的JobClient节点,使得监测数据治理任务的JobClient节点接收到所述任务执行结果后重新提交新任务。
本发明还提供一种数据处理系统,包括:数据处理服务器和HDFS服务器;所述数据处理服务器包括:
任务提交模块,用于通过JobClient节点提交数据治理任务至对应的JobTracker节点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智器云南京信息科技有限公司,未经智器云南京信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911283698.1/2.html,转载请声明来源钻瓜专利网。