[发明专利]一种数据库物化视图构建系统、方法以及系统创建方法在审
申请号: | 202010367321.0 | 申请日: | 2020-04-30 |
公开(公告)号: | CN111597209A | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 李国良;袁海涛;冯建华 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/2453 | 分类号: | G06F16/2453;G06F16/28;G06F16/26 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 蒋冬梅;栗若木 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据库 物化 视图 构建 系统 方法 以及 创建 | ||
本申请实施例公开了一种数据库物化视图构建系统、方法以及系统创建方法,该系统包括:查询负载预处理模块、离线训练模块和在线推荐模块;查询负载预处理模块用于对输入的查询负载进行预处理获取子查询代表;离线训练模块用于通过查询负载历史数据对预设的深度学习模型和强化学习模型进行训练;在线推荐模块用于通过深度学习模型预测每一个子查询代表对应的原查询使用该子查询代表对应的物化视图进行视图重写后,得到的新查询的查询代价;并通过强化学习模型获取查询代价最低的最优子查询和相应的最优物化视图。该实施例方案较大程度降低了批量查询的冗余代价,并实现了物化视图近似优化过程的收敛。
技术领域
本文涉及信息检索技术,尤指一种数据库物化视图构建系统、方法以及系统创建方法。
背景技术
在数据库研究领域中,针对批量查询的优化有很多手段,其中一种是利用物化视图的技术降低批量查询的冗余代价。具体来说,在联机分析处理 (OLAP)系统中,分析性的SQL查询语句间存在相同的子查询,这些共同的子查询造成了冗余的查询代价。为了解决这样的问题,一种优化的方法是针对共同的子查询构建相应的视图,然后通过将视图的查询结果存储下来再被复用的方式来减少冗余的查询代价。换句话说,一次查询多次复用可以极大提高查询效率,降低不必要的查询代价。
然而,现有的方法大多还是需要靠数据库管理员(DBA)根据经验手动构建视图,这种方式的不足有两点:一是对于没有经验的数据库使用者不太友好;二是手动构建视图的方式十分低效。为了解决这样的问题,有的研究者提出了自动构建物化视图的技术,但是他们只是提出一种启发式的算法,并没有解决物化视图自动构建过程中面临的以下挑战:
1、如何衡量一个物化视图被一个原查询复用后带来的收益。直观来说,针对一个原查询,这样的收益等价于使用物化视图相比于不使用物化视图能够减少的查询代价。但是,在实际衡量这个代价的过程中,我们不能生成所有可能的物化视图并利用实际的物化视图执行一遍所有的查询去产生真实的代价,因为这会产生更大的代价。因此,我们只能利用估计的手段去预测收益。目前,已经有很多估计查询代价的方法,但是仍然无法估计重写后的新查询的查询代价。因此,此处的难点是如何为新查询估计代价。
2、如何自动选择子查询去生成物化视图。这个选择问题可以建模成整数优化问题,然后利用整数优化问题求解器求取精确解。但是,随着数据规模的增大,求解器无法求取精确解。因此,有的研究人员提出了迭代求解的近似算法。具体来说,将整体的优化问题看成两部分:一是选择子查询建立物化视图,二是为原查询选择相应的物化视图重写子查询。迭代求解的算法就是先固定第二个部分的优化对象只优化第一个部分的优化对象,然后再固定第一个部分的优化对象只优化第二个部分的优化对象,最后重复上述两个步骤直到收敛。其中,第一部分的优化对象利用概率计算的方式确定,这个会造成整体优化的目标在两个不同的优化步骤之间来回震荡而无法收敛的问题。因此,此处的难点是如何解决这种近似优化过程无法收敛的问题。
发明内容
本申请实施例提供了一种数据库物化视图构建系统、方法以及系统创建方法,能够较大程度降低批量查询的冗余代价,并实现物化视图近似优化过程的收敛。
本申请实施例提供了一种数据库物化视图构建系统,所述系统可以包括:查询负载预处理模块、离线训练模块和在线推荐模块;
所述查询负载预处理模块,可以用于对输入的查询负载进行预处理;所述预处理包括:从所述查询负载中抽取子查询,并对抽取的子查询进行等价识别、聚类和子查询代表选取;以获取一个或多个子查询集合;其中,每一个子查询集合分别为一类子查询,每一类子查询包含有一个或多个子查询,同一类子查询中任意两个子查询之间都是等价的;所述子查询代表对应的物化视图能够被同一类子查询中除所述子查询代表以外的子查询任务进行复用;
所述离线训练模块,可以用于通过查询负载历史数据对预设的深度学习模型和强化学习模型进行训练,以获取所述深度学习模型和强化学习模型的参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010367321.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:标定方法、装置和系统
- 下一篇:用于为统计应用处理训练数据的系统和方法