[发明专利]数据处理方法及装置在审
申请号: | 202211594018.X | 申请日: | 2022-12-13 |
公开(公告)号: | CN115827633A | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 范超;潘建波;刘波涛 | 申请(专利权)人: | 湖南快乐阳光互动娱乐传媒有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2457;G06F16/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 牛玉霜 |
地址: | 410003 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
本发明提供一种数据处理方法及装置,该方法包括:确定待连接的离线数据仓和实时数据仓;判断离线数据仓与实时数据仓是否满足连接条件;当满足连接条件时,应用Presto连接离线数据仓及实时数据仓,获得Hive数据仓;在Presto中建立Hive的统一查询视图,外部程序通过Presto所提供的API来处理数据查询请求,并向客户端返回目标数据。应用本发明提供的方法,通过presto将离线数据仓和实时数据仓连接组成一个整体的Hive数据仓,可以快速查找到用户需要查询的数据。
技术领域
本发明涉及计算机技术领域,特别是涉及一种数据处理方法及装置。
背景技术
在各大业务系统中设置多个数据仓用于存储业务系统实时产生的各种数据。在业务系统中,通常将历史生成的数据存储与离线数据仓中,将当天实时生成的数据存储于实时数据仓中。由于业务系统中可能存在多个离线数据仓和多个实时数据仓,在对数据进行查找时,需要针对每个数据仓进行分析和计算,从而导致对一个数据的查询可能需要花费较长的时间,影响业务系统对各个业务的服务需求。
发明内容
有鉴于此,本发明提供一种数据处理方法,通过该方法,通过presto将离线数据仓和实时数据仓连接组成一个整体的Hive数据仓,可以快速查找到用户需要查询的数据。
本发明还提供了一种数据处理装置,用以保证上述方法在实际中的实现及应用。
一种数据处理方法,包括:
确定至少一个待连接的离线数据仓和实时数据仓,所述离线数据仓用于存储历史数据,所述实时数据仓用于存储预设的计时时间段内实时生成的实时数据;
判断所述离线数据仓与所述实时数据仓是否满足预设的连接条件;
当所述离线数据仓与所述实时数据仓满足预设的连接条件时,应用预设的开源的多数据源分布式SQL查询引擎Presto,连接所述离线数据仓及所述实时数据仓,获得Hive数据仓;
在所述Presto中建立所述Hive数据仓对应的查询视图,并在接收到外部程序通过所述Presto提供的API发送到数据查询请求时,向所述客户端返回所述数据查询请求对应的目标数据。
上述的方法,可选的,所述判断所述离线数据仓与所述实时数据仓是否满足预设的连接条件,包括:
确定所述离线数据仓的中数据表格的第一表格结构及所述实时数据仓中数据表格的第二表格结构;
判断所述第一表格结构与所述第二表格结构是否一致,且所述实时数据仓中的各个实时数据是否已进行读写分离;
当所述第一表格结构与所述第二表格结构一致,且所述实时数据仓中的各个实时数据已进行读写分离时,确定所述离线数据仓与所述实时数据仓满足所述连接条件;
当所述第一表格结构与所述第二表格结构不一致,或,所述实时数据仓中的各个实时数据已进行读写分离时,确定所述离线数据仓与所述实时数据仓不满足所述连接条件。
上述的方法,可选的,还包括:
当所述离线数据仓与所述实时数据仓不满足所述连接条件时,按照所述第一表格结构调整所述第二表格结构,和/或,将所述实时数据仓中的各个实时数据进行读写分离,获得所述实时数据仓中的第一数据集群和第二数据集群。
上述的方法,可选的,所述在接收到外部程序通过所述Presto提供的API发送到数据查询请求时,向所述客户端返回所述数据查询请求对应的目标数据,包括:
启用所述Presto中的presto协调器对所述数据查询请求进行解析,获取所述数据查询请求的请求信息;
获取所述请求信息中包含的所述目标数据对应的写入时间;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南快乐阳光互动娱乐传媒有限公司,未经湖南快乐阳光互动娱乐传媒有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211594018.X/2.html,转载请声明来源钻瓜专利网。