[发明专利]一种基于离线学习历史查询预测未来查询的近似查询方法有效
申请号: | 201910812371.2 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110597876B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 温延龙;李云;袁晓洁 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 天津耀达律师事务所 12223 | 代理人: | 张耀 |
地址: | 300350 天津*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 离线 学习 历史 查询 预测 未来 近似 方法 | ||
一种基于离线学习历史查询预测未来查询的近似查询方法,属于数据库技术应用领域。步骤如下:第1、离线学习历史查询对底层数据分布建模,第1.1、将复杂的SQL查询拆分为简单查询;第1.2、提取SQL查询和近似结果中包含的特征;第1.3、利用历史查询、近似结果和真实结果对底层数据分布建模;第2、在线预测新到来查询的结果,第2.1、将新到来的查询拆分为简单查询;第2.2、为每个简单查询在线预测查询结果;第2.3、将简单查询的预测结果合并输出最终的预测结果。本发明可以降低构建底层数据分布模型的复杂度同时提高其精确度,在没有多余时间消耗的情况下可以提高查询的精确度。
技术领域
本发明属于数据库技术领域,具体涉及一种基于离线学习历史查询预测未来查询的近似查询方法。
背景技术
社交媒体、移动设备和无线传感器正以前所未有的速度产生大龄的时空数据,大数据上的聚合查询已经成为许多决策支持系统的基础。传统数据库以阻塞的方式处理数据查询,在用户提交查询后经过很长时间才能返回一个精确的结果,因此查询效率低下。一方面,对用户而言,返回一个精确的结果所需的查询时间是难以接受的。另一方面,决策支持系统在很多场景下不需要一个完全精确的答案,只要近似结果和真实结果能做出相同的决策即可。用户更倾向于选择一个不完全精确但是非常快速的答案。近似查询已经成为处理大数据和当今决策支持系统严格响应时间要求的一个经济高效的方法。
近年来的近似查询技术通常是基于采样、草图和摘要等方法获取一个较小的样本或特征来表示原始数据。这些方法的准确性取决于两个方面,一是样本数据的随机性,只有在确保样本选择完全随机时,用于估计最后结果的方法才具有统计意义。另一个就是估计方法的有效性。既然所有的查询都访问相同的底层分布,那么可以学习底层数据分布而不是用样本表征数据。如果能够通过一些方法对底层数据分布建模,之后的查询就可以访问模型参数得到结果而不用访问原始数据。现有的通过学习底层数据分布进行近似查询的技术使用最大熵原理,利用历史查询及其估计结果对底层数据建模用于预测未来查询的结果。这样的方法不够准确,同时需要计算查询结果的统计特征非常复杂。为了快速有效地对底层数据建模,我们借助机器学习的方法利用历史查询的近似结果和真实结果来模拟底层数据分布,使得模型更加准确,在没有多余时间消耗的情况下返回一个更加精确的结果。
发明内容
本发明的目的是解决现有通过学习底层数据分布进行近似查询的技术所带来的过程复杂、预测准确率低的问题,提出了一种基于离线学习历史查询预测未来查询的近似查询方法。本发明可通过离线的方式,求得历史查询的估计结果和真实结果。将查询和估计结果作为特征,真实结果作为标签,利用机器学习方法进行离线训练,得到底层数据分布的模型。当有新的查询到来时,通过离线学习的模型预测其结果。本发明可以降低构建底层数据分布模型的复杂度同时提高其精确度,在没有多余时间消耗的情况下可以提高查询的精确度。
本发明提供的基于离线学习历史查询预测未来查询的近似查询方法的具体步骤如下:
第1、离线学习历史查询对底层数据分布建模
每一条查询及其结果都包含了底层数据分布的一点知识,本发明通过学习这些知识来模拟底层数据的分布。在离线的情况下,获得历史查询的近似结果和真实结果,以历史查询和其近似结果作为特征,以真实结果作为标签,利用机器学习模型对底层数据分布建模。具体方法如下:
定义1:简单查询指的是具有单个聚合函数的查询,其SELECT子句中没有其他投影列,并且没有GROUP-BY子句。聚集查询q是具有如下形式的一个SQL查询,
SELECT agg(ai)
FROM relationr
WHERE conditionc
其中:
SELECT语句用于从数据表中选取数据,结果被存储在一个结果表中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910812371.2/2.html,转载请声明来源钻瓜专利网。