[发明专利]基于学习索引的数据存储方法在审

专利信息
申请号: 202110898898.9 申请日: 2021-08-05
公开(公告)号: CN113722319A 公开(公告)日: 2021-11-30
发明(设计)人: 崔秋;唐刘;王中华 申请(专利权)人: 平凯星辰(北京)科技有限公司
主分类号: G06F16/22 分类号: G06F16/22
代理公司: 北京知果之信知识产权代理有限公司 11541 代理人: 卜荣丽
地址: 100192 北京市海淀区西小口路*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 学习 索引 数据 存储 方法
【说明书】:

本申请提供了一种提高数据写入速度的数据存储方法及基于所述数据存储方法的数据读取和写入请求处理方法。所述数据存储方法包括构造一个三层的树形数据索引结构以存储数据,所述树形数据索引结构包括:模型层、解构层和数据存储层。所述模型层由两层学习索引模型组成,第一层学习索引模型为一个RMI模型,第二层学习索引模型为多个PLA模型。所述解构层中的索引节点数组包含一个或多个索引节点,每个所述索引节点中包含N个数据索引。所述数据存储层以数据块的形式存储数据。该方法能够在NVM设备上执行,利用相对静态的解构层减少写入引起的模型重新训练,使得该数据存储方法能够提高写入性能。

技术领域

本申请属于信息存储技术领域,更具体地,涉及基于学习索引的数据存储方法。

背景技术

数字时代下,急剧增长的数据量对存储系统提出了更高的容量和性能要求。一方面,传统DRAM内存面临着容量和能耗等方面的问题,另一方面,经典的范围索引结构B+树索引的时间和空间效率都直接与数据量成负相关,其空间复杂度更是与数据量成线性负相关。

为了解决上述问题,在硬件方面,现在工业界推出了新型非易失性内存NVM(Non-Volatile Memory),它具有按字节寻址、快速访问、掉电非易失、高存储密度和静态功耗低等优良特性,是最有希望的DRAM(Dynamic Random Access Memory)内存的替代者。在软件方面,近两年学术界积极利用机器学习对传统数据索引结构进行探索性优化,被称为学习索引(learned index)。学习索引的核心思想是借助机器学习模型来构建一个由键(key)到存储地址的一一映射,构建好的模型可以通过计算,在常规数据量级别的时间复杂度内预测出与一个键相对应的存储位置,很好地解决了传统数据索引结构在数据规模变大时性能下降的问题。目前在应用适应NVM设备的B+树索引方面已经有非常多的工作了,然而学习索引作为新型的数据索引结构并未被应用到NVM设备中。相比经典范围索引结构B+树索引,学习索引更适合部署在NVM设备上。因为NVM设备的读写性能略微逊色于DRAM设备,每次访问数据存储地址的时间延迟较高,而学习索引拥有恒定的查找操作,所以在数据量大的时候,学习索引拥有更短的访问路径,这会天然的减轻访问时间延迟的影响。并且,现有学习索引结构拥有读写不对称性,其更侧重于数据的读取过程,拥有较好的读取性能。

发明内容

本申请提供了一种提高数据写入速度的数据存储方法及基于所述数据存储方法的数据读取和写入请求处理方法,其目的在于构建一种基于学习索引结构的数据存储方法,该方法能够在NVM设备上运行,相比现有技术能够更充分地利用NVM设备大容量、非易失、可字节寻址等优良特性,并能利用学习索引结构的高性能查询功能弥补NVM设备写入性能相比DRAM设备的不足,使得该数据存储方法拥有很好的写入性能。

为实现上述目的,本申请提供了一种数据存储方法,该方法包括构造一个三层的树形数据索引结构以存储数据,该树形数据索引结构包括:模型层、解构层和数据存储层。其中,所述模型层由两层学习索引模型组成,第一层学习索引模型为一个RMI(RecursiveModel Index)模型,第二层学习索引模型为多个PLA(Piecewise Linear Approximation)模型。所述解构层包括由按键(key)的数值范围分段的多个索引节点(index-node)。所述数据存储层以多个数据块的方式存储所述数据。

进一步地,基于该RMI模型将全局键空间分为包括多个群组(group)的群组数组,其中每个所述群组包含一个所述PLA模型和一个或多个所述索引节点,所述PLA模型对应于所述一个或多个包含在同一所述群组中的索引节点。所述一个或多个索引节点构成索引节点数组。所述数据存储层中的多个数据块中的每一个数据块分别对应于一个所述索引节点并存储一个子数值范围内的所述数据。

进一步地,该方法还包括使用该RMI模型预测该键在该群组数组中的位置,把该键定位到该群组数组中的一个群组。在把该键定位到该群组后,使用该群组包含的PLA模型针对该键进行训练。然后,使用该PLA模型预测出该键在该群组的索引节点数组中的位置。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平凯星辰(北京)科技有限公司,未经平凯星辰(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110898898.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top