[发明专利]数据处理任务分析方法、装置、电子设备和可读存储介质在审
申请号: | 202010378418.1 | 申请日: | 2020-05-07 |
公开(公告)号: | CN111680085A | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 万雄飞;马方旭;徐阳 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 任务 分析 方法 装置 电子设备 可读 存储 介质 | ||
本申请公开了一种数据处理任务分析方法、装置、电子设备和可读存储介质,所述方法包括:获取数据处理任务的元数据,所述数据处理任务包括数据抽取任务、数据转换任务和数据加载任务中的至少一种;根据所述元数据生成相应的所述数据处理任务的任务特征;根据所述任务特征和数据处理任务分析模型确定数据处理任务分析结果。通过本申请,解决了在ETL数据生产过程中人工调优带来的低效以及成本高等技术问题,提高了ETL数据处理任务的时效性。
技术领域
本申请涉及数据处理技术领域,具体涉及一种数据处理任务分析方法、装置、电子设备和计算机可读存储介质。
背景技术
随着公司业务不断的发展,数据量的日益增多,以及数据使用方对数据产出时间的要求越来越严格,导致数据仓库中对模型的时效性要求不可避免的增加,所以ETL(Extraction-Transformation-Loading,数据抽取、转换和加载)任务的时效性优化是离线数据仓库一直面临的严峻挑战。
相关技术中主要通过人工分析优化ETL的时效性,然而,该方法至少存在如下问题:1)分析手段单一,分析结果存在主观性导致优化效率无法保证;2)人工优化ETL时效性的周期较长;3)人工预估优化手段的可行性和收益评估不准确。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理任务分析方法、装置、电子设备和计算机可读存储介质。
依据本申请的第一方面,提供了一种数据处理任务分析方法,包括:
获取数据处理任务的元数据,所述数据处理任务包括数据抽取任务、数据转换任务和数据加载任务中的至少一种;
根据所述元数据生成相应的所述数据处理任务的任务特征;
根据所述任务特征和数据处理任务分析模型确定数据处理任务分析结果。
可选地,所述元数据包括上游任务特征数据,所述根据所述元数据生成相应的所述数据处理任务的任务特征包括:
根据所述上游任务特征数据生成相应的所述数据处理任务的任务特征,其中所述数据处理任务的任务特征包括上游任务完成时间、上游模型文件大小以及上游模型文件数量中的至少一种。
可选地,所述元数据包括当前任务特征数据,所述根据所述元数据生成相应的所述数据处理任务的任务特征包括:
根据所述当前任务特征数据生成相应的所述数据处理任务的任务特征,其中所述数据处理任务的任务特征包括任务执行倾斜度以及任务执行阶段信息中的至少一种。
可选地,所述元数据包括队列资源特征数据,所述根据所述元数据生成相应的所述数据处理任务的任务特征包括:
根据所述队列资源特征数据生成相应的所述数据处理任务的任务特征,其中所述数据处理任务的任务特征包括任务执行队列待处理任务量。
可选地,所述根据所述任务特征和数据处理任务分析模型确定数据处理任务分析结果包括:
对所述任务特征进行数据清洗,以将经过数据清洗后的任务特征作为所述数据处理任务分析模型的输入。
可选地,所述数据处理任务分析模型包括与任务特征类别对应的分析规则,所述数据处理任务分析结果包括与各所述任务特征类别对应的分析结果和目标解决方案,所述方法还包括:
响应于对所述目标解决方案的执行请求,根据所述目标解决方案对所述数据处理任务进行优化。
可选地,所述获取数据处理任务的元数据包括:
提供前端页面,以通过所述前端页面接收数据处理任务标识;
根据所述数据处理任务标识获取所述数据处理任务的元数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010378418.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种色选机面板灯显示智能控制装置
- 下一篇:锂离子电池化成方法及锂离子电池