[发明专利]一种基于深度强化学习的列存储布局优化方法有效

专利信息
申请号: 202011228158.6 申请日: 2020-11-06
公开(公告)号: CN112347104B 公开(公告)日: 2023-09-29
发明(设计)人: 覃雄派;陈跃国;杜小勇;赵丽萍 申请(专利权)人: 中国人民大学
主分类号: G06F16/22 分类号: G06F16/22;G06F16/2455;G06N3/0464;G06N3/08;G06F3/06
代理公司: 北京领科知识产权代理事务所(特殊普通合伙) 11690 代理人: 梁军丽
地址: 100872 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 强化 学习 存储 布局 优化 方法
【说明书】:

发明公开了一种基于深度强化学习的列存储布局优化方法,该方法包括:接收查询负载;对查询负载进行解析,以生成查询特征;根据查询特征获取数据列的特征数据;基于列的输出顺序的策略、所述数据列的特征数据确定列的输出顺序;对所述输出顺序进行量化评价,所述量化评价策略基于系统的奖赏进行调整;根据量化评价结果调整列的输出顺序的策略。通过本发明,能够在磁盘跳读时间减少的期望方向上不断调整所使用的模型参数,让神经网络根据列的特征数据自动学习最优列排序,并能够实现增量训练,而且不用在每次优化时重新计算列排序,从而大大降低计算代价。

技术领域

本发明涉及计算机领域,尤其涉及一种基于深度强化学习的列存储布局优化方法,主要是对大数据的列存储进行布局优化,从而提升数据读取性能。

背景技术

面向关系型数据的OLAP(Online Line Analytic Processing)分析在很多分析和决策支持类应用中发挥着至关重要的作用。在大数据时代,很多大数据分析系统,如Hive、Spark SQL等,将HDFS(Hadoop Distributed File System)作为底层的存储,大量的数据不断地积累并存储在HDFS上,而数据分析的实时性要求越来越高。作为分布式大数据低成本数据存储与处理的事实标准,HDFS为大数据分析系统提供了容错的、可移植、可扩展、高读写吞吐量的统一数据存储。HDFS上的大数据分析系统通常被用于支持海量数据上批量的和交互式的查询分析。

在这些系统中,数据表通常采用如RCFile、ORC、Parquet、CarbonData等列存储格式,采用列存储的数据存储提供灵活有效的数据编码和压缩功能并且能够只读取必要的数据列,从而避免了不必要的I/O,但我们发现HDFS上数据的查询分析性能可以通过存储布局的优化而进一步提高。当查询访问HDFS数据块中的一个水平分片中的数据列时,需要进行多次的磁盘跳读,一个最优的列顺序可以提供最小的磁盘跳读代价。其中,列排序问题已经被学术论文证明为NP-Hard。如何在给定的查询负载下,设计有效的列排序算法来找到一个近似最优的列顺序是一个难题。而现有的启发式搜索的优化随机性强,容易陷入次优中,同时每次优化都需要重新计算列排序,计算代价较高。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的技术方案。因此,本发明的一个方面,提供了一种基于深度强化学习的列存储布局优化方法,该方法包括:

接收查询负载;

对查询负载进行解析,以生成查询特征;

根据查询特征获取数据列的特征数据;

基于列的输出顺序的策略、所述数据列的特征数据确定列的输出顺序;

对所述输出顺序进行量化评价,所述量化评价策略基于系统的奖赏进行调整;

根据量化评价结果调整列的输出顺序的策略。

可选的,根据磁盘跳读时间对所述输出顺序进行量化评价。

可选的,采用Actor-Critic算法实现深度强化学习列的输出顺序的策略,基于系统的奖赏调整量化评价策略,包括根据系统给出的奖赏调整critic神经网络中的参数。

可选的,采用Pointer Net的神经网络进行输出顺序的决策,包括从一个序列到另一个序列进行映射。

可选的,基于列的输出顺序的策略、所述数据列的特征数据确定列的输出顺序,包括:

利用注意力机制得到输出序列某一个位置的元素与输入序列每个位置关联的权重;

将输入序列与该权重进行组合以计算当前输出与输入序列关系最大的元素,并将该输入序列的元素作为输出元素。

可选的,该方法还包括:对输入查询负载进行统一编码,具体包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011228158.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top