[发明专利]一种数据管理方法及平台有效
申请号: | 202111558207.7 | 申请日: | 2021-12-20 |
公开(公告)号: | CN113947468B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 柴大秋;张继成;杨腾飞;马小雨 | 申请(专利权)人: | 鲁信科技股份有限公司 |
主分类号: | G06Q40/00 | 分类号: | G06Q40/00;G06F16/242;G06F16/25 |
代理公司: | 济南千慧专利事务所(普通合伙企业) 37232 | 代理人: | 秦嘉 |
地址: | 250014 山东省济南市历*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据管理 方法 平台 | ||
1.一种数据管理方法,其特征在于,所述方法包括:
根据接收到的数据抽取指令,在目标数据库中抽取目标金融数据;
对所述目标金融数据进行预处理,得到待处理金融数据;
基于用户创建的数据管理工作流,确定所述待处理金融数据的数据处理流程;其中,所述数据管理工作流中包括数据传输任务、数据分析任务以及数据质量检测任务;
具体包括:
将用户添加到工作台的每个工作流节点与对应的数据管理模块相链接;其中,工作流模块中提供了多种不同的工作流节点,每种工作流节点都以图标的形式在可操作性界面中显示,用户使用时直接将需要的工作流节点拖拽到工作台中,从而创建一个数据管理工作流;所述工作流节点包括数据传输节点、数据分析节点以及数据质量检测节点;所述数据管理模块包括数据传输模块、数据分析模块、数据质量检测模块;所述数据分析节点包括spark节点、hive节点、python节点、shell节点;spark节点支持sql代码、pyspark代码以及scala代码的编写和执行;hive节点支持sql代码的编写和执行;python节点支持python代码的编写和执行;shell节点支持shell命令或者脚本运行;所述数据分析节点可以在工作台中点击节点组件直接进行编辑,也可以链接到数据分析模块进行脚本开发;数据传输节点、数据质量检测节点以及数据可视化节点中的节点,与对应的数据传输模块、数据质量检测模块以及数据可视化模块相链接,可直接跳转到对应的模块进行相应的设置;
基于用户上传的工作流配置文件,确定所述每个工作流节点之间的依赖关系;其中,在依赖关系中,被依赖的工作流节点为上游节点,依赖上游节点的工作流节点为下游节点;基于所述工作流节点以及所述依赖关系,确定所述待处理金融数据的数据处理流程;
基于所述处理流程以及预设任务配置信息,执行所述数据管理工作流,以对所述待处理金融数据进行相应的处理,具体包括:
在当前执行的工作流节点为数据传输节点的情况下,根据预设数据传输信息,执行所述数据传输模块中的数据传输任务:跳转到所述数据传输模块中,并获取当前工作流节点的上游节点的输出数据;其中,若所述当前工作流节点没有上游节点,则所述输出数据为所述待处理金融数据;
根据所述预设数据传输信息,确定一个或多个目标数据库;
为每个目标数据库创建一个传输线程,并执行每个传输线程,将所述输出数据分别传输到所述一个或多个目标数据库中;
监测每个传输线程的实时传输速率;
基于预设时间间隔,捕捉实时传输速率小于第一预设阈值,或者运行时长超过第二预设阈值的传输线程,释放所述传输线程占用的资源,并发出告警信息,提醒工作人员检查所述传输线程的运行状态是否异常;
在当前执行的工作流节点为数据分析节点的情况下,根据预设数据分析脚本,执行所述数据分析模块中的数据分析任务:跳转到所述数据分析模块中,并获取当前工作流节点的上游节点的输出数据;
基于所述预设数据分析脚本的脚本类型,调用对应的计算引擎;其中,所述脚本类型包括:sql脚本,hive脚本,scala脚本,python脚本,pyspark脚本;
通过所述计算引擎,执行所述预设数据分析脚本;
在执行过程中,若识别到预设函数名,则在所述数据分析模块中查找并调用对应的预设函数;其中,所述预设函数包括通用函数以及用户自定义函数;
运行所述预设函数,并继续执行所述预设数据分析脚本,以对所述输出数据进行分析,并将分析结果发送到当前工作流节点的下游节点;
在当前执行的工作流节点为数据质量检测节点的情况下,根据预设数据检测规则,执行所述数据质量检测模块中的数据质量检测任务:跳转到所述数据传输模块中,并获取当前工作流节点的上游节点的输出数据;
基于所述预设数据检测规则,选择对应的检测模板;
其中,所述检测模板包括:空值检测模板、主键检测模板、表行数检测模板、平均值检测模板、最大值检测模板、最小值检测模板、正则表达式检测模板、日期格式检测模板、字段数值类型检测模板、枚举值检测模板、数值范围检测模板、身份号检测模板;
将选择的所述检测模板中的占位符替换为所述输出数据,并根据所述检测模板,对所述输出数据进行质量检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鲁信科技股份有限公司,未经鲁信科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111558207.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电子标签的发行设备
- 下一篇:产品可靠性薄弱环节评估方法、装置和计算机设备