[发明专利]一种面向更新分布的学习索引模型在审
申请号: | 202211467816.6 | 申请日: | 2022-11-22 |
公开(公告)号: | CN115718748A | 公开(公告)日: | 2023-02-28 |
发明(设计)人: | 郭娜;王雅琪;姜皓南;夏秀峰;安云哲;周大海 | 申请(专利权)人: | 沈阳航空航天大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/28;G06N20/00 |
代理公司: | 北京汇捷知识产权代理事务所(普通合伙) 11531 | 代理人: | 张燕燕 |
地址: | 110136 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 更新 分布 学习 索引 模型 | ||
本发明公开了一种面向更新分布的学习索引模型,包括步骤:(1)使用开销模型将键构建为RMI结构;(2)在每个内部节点利用数据的累积分布函数均匀划分数据的范围;(3)在每个叶子节点构建一个单调的带间隙的一元线性回归模型;(4)在构建索引过程中学习数据更新分布;(5)点查询与插入;(6)模型扩展与分裂。本发明使用机器学习模型代替以传统的B‑树为基础的数据库索引结构,同时学习数据的更新分布,利用了数据更新分布的特性与机器学习模型的优势,使得索引结构的存储开销与数据插入时的开销大大减少。
技术领域
本发明属于一维数据索引技术领域,具体涉及一种面向更新分布的学习索引模型。
背景技术
数据索引一直是计算机领域的核心问题之一,而处理数据插入则是数据索引领域最重要的问题之一;随着大数据时代的到来,支持频繁的数据插入与高效查询的需求与日俱增。过去几十年,一维数据一般采用B-树及其变体来索引,然而随着数据量的增加以B-树为基础的传统数据库索引往往需要较大的IO开销以及较高的空间代价,寻找一种IO开销与空间开销比B-树更小同时可以有效处理频繁数据插入的新型索引结构是很有意义且必要的。
近年来,学习索引的概念被提出,它的主要思想是索引可以看作模型,可以使用简单的机器学习模型来代替被广泛使用的传统的一维数据索引结构B-树。使用机器学习模型来索引一维数据,通过这种方式可以有效避免传统索引每次查询的多次间接搜索,大大提高了以为数据的检索速度;另外,由于机器学习模型只在节点内存储模型参数等信息,因此一维学习索引的空间代价也比B-树小很多,这种思路十分新颖同时也很有研究价值。然而,最初的学习索引只能处理静态查询,不能有效处理数据插入,因为该学习索引将键都存放在一个密集的内存数组中,数据插入代价太大,但在大多数实际应用中,都存在数据插入的情况。
当前,B-树及其变体是被广泛应用的一维数据索引结构,然而B-树所需的空间开销以及时间开销均比较大;目前的学习索引虽然有效处理了数据查询但无法高效处理频繁的数据插入,因此急需一种基于更好的索引结构来高效处理频繁数据插入的方法。
发明内容
鉴于上述问题,本发明提供了一种面向更新分布的学习索引模型,主要解决的问题是使用简单的机器学习模型来代替以B-树为基础的传统一维数据索引,学习数据更新分布来提高现有学习索引处理频繁数据插入的能力,利用机器学习模型的强大表达能力,减小索引结构的存储开销、查询开销,提高索引结构处理频繁插入的能力。
本发明采用的技术方案为:一种面向更新分布的学习索引模型,包括如下步骤:
(1)使用开销模型将键构建为RMI结构;
(2)在每个内部节点利用数据的累积分布函数均匀划分数据的范围,保证每个内部节点内的数据空间间隔相同;
(3)在每个叶子节点构建一个单调的带间隙的一元线性回归模型,利用该模型使用基于模型导向的方法插入键;
(4)在构建索引过程中学习数据更新分布,根据数据更新分布为插入数据预留间隙等待插入;
(5)在叶子节点内使用指数搜索进行键查询与插入;
(6)插入一定量数据后,对模型进行扩展或分裂操作,以有效处理后续插入。
进一步地,所述步骤(1)的具体实现方式为:首先将所有键按从小到大进行排序,然后根据键的分布,使用开销模型计算每层开销直至开销增长,RMI结构的内部节点进行数据范围划分,叶子节点进行数据拟合与预测,所述的键即为一维数据。
进一步地,所述步骤(2)的具体实现方式为:学习数据的累积分布函数,根据数据的累积分布函数计算内部节点的模型参数,使得该线性回归模型可以将数据按范围均分到其对应的孩子节点中,将键值输入该模型中,取模型输出结果的整数部分作为该键所属孩子节点的序号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳航空航天大学,未经沈阳航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211467816.6/2.html,转载请声明来源钻瓜专利网。