[发明专利]大数据处理方法、装置、设备及介质有效
申请号: | 202110005206.3 | 申请日: | 2021-01-05 |
公开(公告)号: | CN112347126B | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 蔡满天;张茜;凌海挺;杜均 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F40/205;G06F40/253;G06F40/284;G06F21/64 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 迟珊珊;杨毅玲 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 设备 介质 | ||
本发明涉及大数据领域,提供一种大数据处理方法、装置、设备及介质,能够定义SQL语法结构,根据SQL语法结构对待处理数据进行解析,生成抽象语法树,实现对SQL语法的统一,屏蔽各种语法差异,对抽象语法树进行转化,得到第一执行计划,根据执行环境对抽象语法树进行优化,得到第二执行计划,不仅对语句进行了进一步优化,还根据执行环境进行了再次优化,启动与目标接口对应的执行引擎执行第一执行计划及第二执行计划,以自动识别目标接口,进而通过目标接口调用相应的大数据引擎进行数据处理,实现对大数据统一的自动化处理,有效提高了大数据处理的效率,并提升了大数据系统的性能。本发明还涉及区块链技术,抽象语法树可存储于区块链。
技术领域
本发明涉及大数据技术领域,尤其涉及一种大数据处理方法、装置、设备及介质。
背景技术
大数据计算通常涉及大量数据,并且场景复杂。因此,整个大数据平台的数据处理系统是一个复杂的系统,需要由不同的产品和技术组合起来一起覆盖各种场景,这样就会给数据工程师或架构师带来不小的挑战。
数据工程师需要掌握相应工具的编程语法、调试技巧,数据架构师需要对涉及到的各种技术原理有深入了解,并总结出使用的最佳方案,各种技术和产品也都需要相应的熟悉的人员,不仅成本高,且技术栈太散。
发明内容
鉴于以上内容,有必要提供一种大数据处理方法、装置、设备及介质,能够实现对大数据统一的自动化处理,有效提高了大数据处理的效率,并提升了大数据系统的性能。
一种大数据处理方法,所述大数据处理方法包括:
定义SQL语法结构;
当接收到待处理数据时,根据所述SQL语法结构对所述待处理数据进行解析,生成抽象语法树;
对所述抽象语法树进行转化,得到第一执行计划;
检测所述待处理数据的执行环境,并根据所述执行环境对所述抽象语法树进行优化,得到第二执行计划;
根据所述执行环境确定目标接口,并启动与所述目标接口对应的执行引擎执行所述第一执行计划及所述第二执行计划。
根据本发明优选实施例,所述根据所述SQL语法结构对所述待处理数据进行解析,生成抽象语法树包括:
调用线程启动预设语法分析器,所述预设语法分析器包括SQL Lexer组件及SQLParser组件;
调用所述SQL Lexer组件对所述待处理数据进行词法解析,生成第一数据;
调用所述SQL Parser组件,并基于所述SQL语法结构对所述第一数据进行语义解析,生成第二数据;
整合所述第二数据,得到所述抽象语法树。
根据本发明优选实施例,所述对所述抽象语法树进行转化,得到第一执行计划包括:
从所述抽象语法树中获取事实数据构建事实表,及从所述抽象语法树中获取维度数据构建维度表;
对所述事实表及所述维度表进行哈希连接,并根据所述事实表生成事实表直方图,根据所述维度表生成哈希表;
根据所述事实表直方图及所述哈希表确定谓词直方图区域;
将所述谓词直方图区域转换为谓词,并将所述谓词下推至数据存储层,得到所述第一执行计划。
根据本发明优选实施例,所述根据所述事实表直方图及所述哈希表确定谓词直方图区域包括:
获取所述哈希表中的键值,并对所述哈希表中的键值进行排序,得到序列表;
从所述序列表中获取直方图区域;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110005206.3/2.html,转载请声明来源钻瓜专利网。