[发明专利]基于机器学习的数据索引优化方法在审

申请号：	202111593769.5	申请日：	2021-12-23
公开（公告）号：	CN114328519A	公开（公告）日：	2022-04-12
发明（设计）人：	宋爱波;马露露;李雅琦;方效林	申请（专利权）人：	东南大学
主分类号：	G06F16/22	分类号：	G06F16/22;G06F16/2453;G06N20/00
代理公司：	南京众联专利代理有限公司 32206	代理人：	叶涓涓
地址：	210000 江苏省南京市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于机器学习数据索引优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于机器学习的数据索引优化方法，其特征在于，包括对主键索引进行优化以及对二级索引进行优化；

所述对主键索引进行优化包括以下步骤：

步骤一，构建混合模型层次结构，分为顶部模型、分支模型和叶子模型；顶部模型的输入数据大小逐步缩减，拟合数据内在分布以预测键值Key所在的记录行位置；自顶向下通过模型对Key的预测结果选择该Key使用的下一层模型编号，并把上层模型预测结果传递给下层选择的模型；

步骤二：对于分支模型的输入数据集，使用权重更新策略，根据上层预测结果来赋予数据不同的权重，其中上层拟合效果越差的数据权重相对升高，并使用加权损失函数进行训练；

步骤三：对于经过某一层分支模型的数据，通过阈值来判断是否继续传递到下一层模型，进行及时的剪枝操作，最终构建递归提升模型索引B-RMI结构；

所述对二级索引的优化包括以下步骤：

步骤一：通过第一阶段二分类模型和Bloom Filter过滤器对唯一键值和非唯一键值进行分类，并保证对唯一键值的分类不存在误判；

步骤二：对于唯一键值数据，通过层次划分方法进行预处理分段后，在每个分段中构建B-RMI结构对原始表进行位置预测，最终构建唯一键值模型；

步骤三：对于非唯一键值数据，通过构建临时表整合非唯一键值的位置列表，再构建B-RMI结构对临时表进行位置预测，最终构建非唯一键值模型。

2.根据权利要求1所述的基于机器学习的数据索引优化方法，其特征在于，所述对主键索引进行优化的步骤一中传递上层模型预测结果的方式是将上一层模型数据的预测残差值作为下一层模型数据的标签值，选择下层模型的方法是将残差差异较大的数据尽量分类到下层的同一个模型中进行训练。

3.根据权利要求2所述的基于机器学习的数据索引优化方法，其特征在于，选择下一层模型的方法具体包括：

假设当前模型的数据集是X＝{x₁，x₂，...x_m}，得到的预测结果P＝{p₁，p₂，...p_m}，标签是Y＝{y₁，y₂，...y_m}；那么残差是R＝{r₁，r₂，..r_m}；r_max是当前模型残差里的最大值，r_min是当前模型残差里的最小值；下层模型总数是M，则对于输入数据x_i选择的模型编号是：