[发明专利]基于学习索引的数据存储方法在审
申请号: | 202110898898.9 | 申请日: | 2021-08-05 |
公开(公告)号: | CN113722319A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 崔秋;唐刘;王中华 | 申请(专利权)人: | 平凯星辰(北京)科技有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22 |
代理公司: | 北京知果之信知识产权代理有限公司 11541 | 代理人: | 卜荣丽 |
地址: | 100192 北京市海淀区西小口路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 学习 索引 数据 存储 方法 | ||
本申请提供了一种提高数据写入速度的数据存储方法及基于所述数据存储方法的数据读取和写入请求处理方法。所述数据存储方法包括构造一个三层的树形数据索引结构以存储数据,所述树形数据索引结构包括:模型层、解构层和数据存储层。所述模型层由两层学习索引模型组成,第一层学习索引模型为一个RMI模型,第二层学习索引模型为多个PLA模型。所述解构层中的索引节点数组包含一个或多个索引节点,每个所述索引节点中包含N个数据索引。所述数据存储层以数据块的形式存储数据。该方法能够在NVM设备上执行,利用相对静态的解构层减少写入引起的模型重新训练,使得该数据存储方法能够提高写入性能。
技术领域
本申请属于信息存储技术领域,更具体地,涉及基于学习索引的数据存储方法。
背景技术
数字时代下,急剧增长的数据量对存储系统提出了更高的容量和性能要求。一方面,传统DRAM内存面临着容量和能耗等方面的问题,另一方面,经典的范围索引结构B+树索引的时间和空间效率都直接与数据量成负相关,其空间复杂度更是与数据量成线性负相关。
为了解决上述问题,在硬件方面,现在工业界推出了新型非易失性内存NVM(Non-Volatile Memory),它具有按字节寻址、快速访问、掉电非易失、高存储密度和静态功耗低等优良特性,是最有希望的DRAM(Dynamic Random Access Memory)内存的替代者。在软件方面,近两年学术界积极利用机器学习对传统数据索引结构进行探索性优化,被称为学习索引(learned index)。学习索引的核心思想是借助机器学习模型来构建一个由键(key)到存储地址的一一映射,构建好的模型可以通过计算,在常规数据量级别的时间复杂度内预测出与一个键相对应的存储位置,很好地解决了传统数据索引结构在数据规模变大时性能下降的问题。目前在应用适应NVM设备的B+树索引方面已经有非常多的工作了,然而学习索引作为新型的数据索引结构并未被应用到NVM设备中。相比经典范围索引结构B+树索引,学习索引更适合部署在NVM设备上。因为NVM设备的读写性能略微逊色于DRAM设备,每次访问数据存储地址的时间延迟较高,而学习索引拥有恒定的查找操作,所以在数据量大的时候,学习索引拥有更短的访问路径,这会天然的减轻访问时间延迟的影响。并且,现有学习索引结构拥有读写不对称性,其更侧重于数据的读取过程,拥有较好的读取性能。
发明内容
本申请提供了一种提高数据写入速度的数据存储方法及基于所述数据存储方法的数据读取和写入请求处理方法,其目的在于构建一种基于学习索引结构的数据存储方法,该方法能够在NVM设备上运行,相比现有技术能够更充分地利用NVM设备大容量、非易失、可字节寻址等优良特性,并能利用学习索引结构的高性能查询功能弥补NVM设备写入性能相比DRAM设备的不足,使得该数据存储方法拥有很好的写入性能。
为实现上述目的,本申请提供了一种数据存储方法,该方法包括构造一个三层的树形数据索引结构以存储数据,该树形数据索引结构包括:模型层、解构层和数据存储层。其中,所述模型层由两层学习索引模型组成,第一层学习索引模型为一个RMI(RecursiveModel Index)模型,第二层学习索引模型为多个PLA(Piecewise Linear Approximation)模型。所述解构层包括由按键(key)的数值范围分段的多个索引节点(index-node)。所述数据存储层以多个数据块的方式存储所述数据。
进一步地,基于该RMI模型将全局键空间分为包括多个群组(group)的群组数组,其中每个所述群组包含一个所述PLA模型和一个或多个所述索引节点,所述PLA模型对应于所述一个或多个包含在同一所述群组中的索引节点。所述一个或多个索引节点构成索引节点数组。所述数据存储层中的多个数据块中的每一个数据块分别对应于一个所述索引节点并存储一个子数值范围内的所述数据。
进一步地,该方法还包括使用该RMI模型预测该键在该群组数组中的位置,把该键定位到该群组数组中的一个群组。在把该键定位到该群组后,使用该群组包含的PLA模型针对该键进行训练。然后,使用该PLA模型预测出该键在该群组的索引节点数组中的位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平凯星辰(北京)科技有限公司,未经平凯星辰(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110898898.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种三维立体地图的制作方法
- 下一篇:具有杀菌功能的照明装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置