[发明专利]逻辑脚本的处理方法、装置、电子设备及存储介质在审
申请号: | 202011566603.X | 申请日: | 2020-12-25 |
公开(公告)号: | CN112597121A | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 任亮;傅雨梅;王行行;文齐辉 | 申请(专利权)人: | 北京知因智慧科技有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/2458;G06F16/25;G06F16/28 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 刘凤 |
地址: | 100000 北京市西城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 逻辑 脚本 处理 方法 装置 电子设备 存储 介质 | ||
本申请涉及大数据标签处理技术领域,具体而言,涉及一种逻辑脚本的处理方法、装置、电子设备及存储介质。该处理方法包括以下步骤:获取HQL控件中的逻辑脚本;创建本地的参数文件,并将所述参数文件传入到HDFS的文件系统中;其中,所述参数文件中包括控制变量名称及控制变量值;基于所述参数文件的路径和所述控制变量名称,读取所述HDFS的文件系统中的参数文件,并将所述控制变量值返回给HIVE;修改所述HQL控件中的逻辑脚本。本申请能够在不修改程序的基础上,既能处理计算现有标签的数据,也能处理部分需要修改的标签的数据,还可以回溯历史分区数据,方便灵活,能够提高开发以及维护的效率。
技术领域
本申请涉及大数据标签处理技术领域,具体而言,涉及一种逻辑脚本的处理方法、装置、电子设备及存储介质。
背景技术
在常见的标签或者指标的离线数据的ETL批量开发过程中,当调度任务发布之后,由于临时需求再单独的计算某些标签或者某些时间段的数据,就需要更改工作流脚本内容,重新发布调度,操作流程比较繁琐。
目前许多开源的数据处理平台构建ETL的数据开发流程都是根据现有的数据控件,拖拽控件,使用有向箭头相连,编辑控件中的脚本的内容,构建一个类似于有向无环图的流程Job。进而通过调度程序去进行数据的流程计算处理。市面上常见的工具有DSS、Kettle、Azkaban等等。
通常将标签逻辑使用HQL处理好之后,将开发好的Job通过调度程序进行调度,根据一定的时间规则(如每天/每周/每月/每年)去定时的跑批计算。对于回溯历史分区数据以及标签更新的种类等操作,很难便捷的去进行管控,只能多次修改定时调度的脚本,以清除式的插入数据的方式然后进行数据的全量跑批。一方面不够方便灵活,另一方面也在一定程度上占用集群资源。
发明内容
有鉴于此,本申请的目的在于提供一种逻辑脚本的处理方法及装置,以传参的形式对逻辑脚本进行控制,更加的方便灵活。
第一方面,本申请实施例提供一种逻辑脚本的处理方法,包括以下步骤:
获取HQL控件中的逻辑脚本;
创建本地的参数文件,并将所述参数文件传入到HDFS的文件系统中,得到所述参数文件的存储路径;其中,所述参数文件中包括控制变量名称及控制变量值;
基于所述参数文件的存储路径和所述控制变量名称,读取所述控制变量名称对应的控制变量值,并将所述控制变量值返回给HIVE;
修改所述HQL控件中的逻辑脚本。
优选的,所述HQL控件对应于DSS平台的至少一个工作流。
优选的,在所述创建本地的参数文件,并将所述参数文件传入到HDFS的文件系统中,得到所述参数文件的存储路径的步骤之后,还包括步骤:
在所述DSS平台的至少一个工作流上设置路径参数,使每个工作流分别对应一个所述参数文件。
优选的,在所述修改所述HQL控件中的逻辑脚本的步骤之后,还包括步骤:
将修改后的逻辑脚本发布到定时调度程序中,按照预设的时间参数运行。
优选的,在所述基于所述参数文件的存储路径和所述控制变量名称,读取所述控制变量名称对应的控制变量值,并将所述控制变量值返回给HIVE的步骤中,还包括:
自定义并运行UDF函数,并通过所述UDF函数调用所述HDFS的文件系统中的相关API接口,从而读取所述HDFS的文件系统中的参数文件。
第二方面,本申请实施例提供一种逻辑脚本的处理装置,包括以下部分:
获取模块,用于获取HQL控件中的逻辑脚本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京知因智慧科技有限公司,未经北京知因智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011566603.X/2.html,转载请声明来源钻瓜专利网。