[发明专利]数据处理方法及装置在审
申请号: | 202211594018.X | 申请日: | 2022-12-13 |
公开(公告)号: | CN115827633A | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 范超;潘建波;刘波涛 | 申请(专利权)人: | 湖南快乐阳光互动娱乐传媒有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2457;G06F16/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 牛玉霜 |
地址: | 410003 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
1.一种数据处理方法,其特征在于,包括:
确定至少一个待连接的离线数据仓和实时数据仓,所述离线数据仓用于存储历史数据,所述实时数据仓用于存储预设的计时时间段内实时生成的实时数据;
判断所述离线数据仓与所述实时数据仓是否满足预设的连接条件;
当所述离线数据仓与所述实时数据仓满足预设的连接条件时,应用预设的开源的多数据源分布式SQL查询引擎Presto,连接所述离线数据仓及所述实时数据仓,获得Hive数据仓;
在所述Presto中建立所述Hive数据仓对应的查询视图,并在接收到外部程序通过所述Presto提供的API发送到数据查询请求时,向所述客户端返回所述数据查询请求对应的目标数据。
2.根据权利要求1所述的方法,其特征在于,所述判断所述离线数据仓与所述实时数据仓是否满足预设的连接条件,包括:
确定所述离线数据仓的中数据表格的第一表格结构及所述实时数据仓中数据表格的第二表格结构;
判断所述第一表格结构与所述第二表格结构是否一致,且所述实时数据仓中的各个实时数据是否已进行读写分离;
当所述第一表格结构与所述第二表格结构一致,且所述实时数据仓中的各个实时数据已进行读写分离时,确定所述离线数据仓与所述实时数据仓满足所述连接条件;
当所述第一表格结构与所述第二表格结构不一致,或,所述实时数据仓中的各个实时数据未进行读写分离时,确定所述离线数据仓与所述实时数据仓不满足所述连接条件。
3.根据权利要求2所述的方法,其特征在于,还包括:
当所述离线数据仓与所述实时数据仓不满足所述连接条件时,按照所述第一表格结构调整所述第二表格结构,和/或,将所述实时数据仓中的各个实时数据进行读写分离,获得所述实时数据仓中的第一数据集群和第二数据集群。
4.根据权利要求1所述的方法,其特征在于,所述在接收到外部程序通过所述Presto提供的API发送到数据查询请求时,向所述客户端返回所述数据查询请求对应的目标数据,包括:
启用所述Presto中的presto协调器对所述数据查询请求进行解析,获取所述数据查询请求的请求信息;
获取所述请求信息中包含的所述目标数据对应的写入时间;
基于所述写入时间,确定所述目标数据所属的目标数据仓,所述目标数据仓为所述离线数据仓或所述实时数据仓;
通过所述presto与所述Hive数据仓之间的仓库连接器接入所述Hive数据仓,并通过所述Hive数据仓查询所述目标数据仓中的所述目标数据。
5.根据权利要求1~4任意一项所述的方法,其特征在于,还包括:
确定当前时间点是否已经进入下一个计时时间段;
当所述当前时间点已经进入下一个计时时间段时,将所述实时数据仓中已存储的各个数据迁移至所述离线数据仓,以更新所述Hive数据仓。
6.一种数据处理装置,其特征在于,包括:
确定单元,用于确定至少一个待连接的离线数据仓和实时数据仓,所述离线数据仓用于存储历史数据,所述实时数据仓用于存储预设的计时时间段内实时生成的实时数据;
判断单元,用于判断所述离线数据仓与所述实时数据仓是否满足预设的连接条件;
连接单元,用于当所述离线数据仓与所述实时数据仓满足预设的连接条件时,应用预设的开源的多数据源分布式SQL查询引擎Presto,连接所述离线数据仓及所述实时数据仓,获得Hive数据仓;
查询单元,用于在所述Presto中建立所述Hive数据仓对应的查询视图,并在接收到外部程序通过所述Presto提供的API发送到数据查询请求时,向所述客户端返回所述数据查询请求对应的目标数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南快乐阳光互动娱乐传媒有限公司,未经湖南快乐阳光互动娱乐传媒有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211594018.X/1.html,转载请声明来源钻瓜专利网。