[发明专利]基于机器学习的数据索引优化方法在审
申请号: | 202111593769.5 | 申请日: | 2021-12-23 |
公开(公告)号: | CN114328519A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 宋爱波;马露露;李雅琦;方效林 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2453;G06N20/00 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 叶涓涓 |
地址: | 210000 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 数据 索引 优化 方法 | ||
1.基于机器学习的数据索引优化方法,其特征在于,包括对主键索引进行优化以及对二级索引进行优化;
所述对主键索引进行优化包括以下步骤:
步骤一,构建混合模型层次结构,分为顶部模型、分支模型和叶子模型;顶部模型的输入数据大小逐步缩减,拟合数据内在分布以预测键值Key所在的记录行位置;自顶向下通过模型对Key的预测结果选择该Key使用的下一层模型编号,并把上层模型预测结果传递给下层选择的模型;
步骤二:对于分支模型的输入数据集,使用权重更新策略,根据上层预测结果来赋予数据不同的权重,其中上层拟合效果越差的数据权重相对升高,并使用加权损失函数进行训练;
步骤三:对于经过某一层分支模型的数据,通过阈值来判断是否继续传递到下一层模型,进行及时的剪枝操作,最终构建递归提升模型索引B-RMI结构;
所述对二级索引的优化包括以下步骤:
步骤一:通过第一阶段二分类模型和Bloom Filter过滤器对唯一键值和非唯一键值进行分类,并保证对唯一键值的分类不存在误判;
步骤二:对于唯一键值数据,通过层次划分方法进行预处理分段后,在每个分段中构建B-RMI结构对原始表进行位置预测,最终构建唯一键值模型;
步骤三:对于非唯一键值数据,通过构建临时表整合非唯一键值的位置列表,再构建B-RMI结构对临时表进行位置预测,最终构建非唯一键值模型。
2.根据权利要求1所述的基于机器学习的数据索引优化方法,其特征在于,所述对主键索引进行优化的步骤一中传递上层模型预测结果的方式是将上一层模型数据的预测残差值作为下一层模型数据的标签值,选择下层模型的方法是将残差差异较大的数据尽量分类到下层的同一个模型中进行训练。
3.根据权利要求2所述的基于机器学习的数据索引优化方法,其特征在于,选择下一层模型的方法具体包括:
假设当前模型的数据集是X={x1,x2,...xm},得到的预测结果P={p1,p2,...pm},标签是Y={y1,y2,...ym};那么残差是R={r1,r2,..rm};rmax是当前模型残差里的最大值,rmin是当前模型残差里的最小值;下层模型总数是M,则对于输入数据xi选择的模型编号是:
4.根据权利要求1所述的基于机器学习的数据索引优化方法,其特征在于,所述对主键索引进行优化的步骤二包括如下子步骤:
(1)初始阶段,m个数据的初始权重均是1/m;
(2)计算每个数据的相对误差:
(3)计算加权误差之和:
(4)计算权重因子:
(5)更新每个数据的权重:
更新之后的权重,对于yi越大的数据,其权重越大,并且某个模型的所有输入数据权重之和等于1;
(6)使用加入权重的均方误差损失函数:
使用加权损失函数进行模型的训练,权重越高的数据损失越大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111593769.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置