[发明专利]数据仓库信息处理方法、装置、系统、介质有效
申请号: | 201811111998.7 | 申请日: | 2018-09-21 |
公开(公告)号: | CN109388637B | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 范叶亮;卢周;钱勇 | 申请(专利权)人: | 京东数字科技控股有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455;G06F16/28 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 刘丽丽 |
地址: | 100176 北京市大兴区北京经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据仓库 信息处理 方法 装置 系统 介质 | ||
1.一种数据仓库信息处理方法,所述数据仓库中包括多个关联存储的历史表格,所述方法包括:
获取至少一个历史查询语句,所述历史查询语句用于查询所述关联存储的历史表格中的多个历史表格的相关数据;
确定所述至少一个历史查询语句对应的多个历史表格;
基于所述多个历史表格中的特定历史表格生成目标表格,所述目标表格包括所述特定历史表格中的相关数据,所述目标表格作为所述数据仓库的宽表,其中,针对所述多个历史表格,将所述历史查询语句涉及次数大于第二预设阈值的历史表格作为所述特定历史表格;
获取所述目标表格与所述数据仓库中的其他历史表格的相似度,当所述目标表格与数据仓库中的其他历史表格的相似度小于第三预设阈值的情况下,存储所述目标表格。
2.根据权利要求1所述的方法,其中,所述获取至少一个历史查询语句,包括:
获取通过所述历史查询语句查询所述关联存储的历史表格中的多个历史表格的相关数据时所涉及的所述数据仓库的历史运行数据;
基于所述运行数据中确定所述至少一个历史查询语句。
3.根据权利要求1所述的方法,其中,所述确定所述至少一个历史查询语句对应的多个历史表格,包括:
对所述至少一个历史查询语句进行解析,得到所述至少一个历史查询语句的关联信息,所述关联信息包括关联字段以及关联条件;
基于所述关联信息确定所述至少一个历史查询语句对应的所述多个历史表格。
4.根据权利要求1所述的方法,还包括:
从多个初始历史查询语句中获取满足第一预设条件的查询语句作为所述至少一个历史查询语句。
5.根据权利要求4所述的方法,其中,所述从多个初始历史查询语句中获取满足第一预设条件的查询语句作为所述至少一个历史查询语句,包括:
对所述多个初始历史查询语句进行聚类得到至少一个查询语句组,其中,每个查询语句组中的历史查询语句之间的相似度满足第一预设阈值;
从所述至少一个查询语句组中确定满足所述第一预设条件的查询语句组作为目标查询语句组,所述目标查询语句组包括所述至少一个历史查询语句。
6.根据权利要求5所述的方法,其中,所述对所述多个初始历史查询语句进行聚类得到至少一个查询语句组,包括:
对所述多个初始历史查询语句进行处理,得到所述多个初始历史查询语句对应的向量;
将多个初始历史查询语句对应的向量进行聚类得到所述至少一个查询语句组,所述至少一个查询语句组包括相应查询语句对应的向量。
7.一种数据仓库信息处理装置,所述数据仓库中包括多个关联存储的历史表格,所述装置包括:
第一获取模块,获取至少一个历史查询语句,所述历史查询语句用于查询所述关联存储的历史表格中的多个历史表格的相关数据;
确定模块,确定所述至少一个历史查询语句对应的多个历史表格;
生成模块,基于所述多个历史表格中的特定历史表格生成目标表格,所述目标表格包括所述特定历史表格中的相关数据,所述目标表格作为所述数据仓库的宽表,其中,针对所述多个历史表格,将所述历史查询语句涉及次数大于第二预设阈值的历史表格作为所述特定历史表格;
存储模块,获取所述目标表格与所述数据仓库中的其他历史表格的相似度,当所述目标表格与数据仓库中的其他历史表格的相似度小于第三预设阈值的情况下,存储所述目标表格。
8.根据权利要求7所述的装置,其中,所述获取至少一个历史查询语句,包括:
获取通过所述历史查询语句查询所述关联存储的历史表格中的多个历史表格的相关数据时所涉及的所述数据仓库的历史运行数据;
基于所述运行数据中确定所述至少一个历史查询语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东数字科技控股有限公司,未经京东数字科技控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811111998.7/1.html,转载请声明来源钻瓜专利网。