[发明专利]数据索引方法、数据查询方法及电子设备有效

专利信息
申请号: 201710824712.9 申请日: 2017-09-13
公开(公告)号: CN107644070B 公开(公告)日: 2020-09-15
发明(设计)人: 高翅 申请(专利权)人: 北京柠檬微趣科技股份有限公司
主分类号: G06F16/13 分类号: G06F16/13
代理公司: 北京超凡志成知识产权代理事务所(普通合伙) 11371 代理人: 王术兰
地址: 100037 北京市西城*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 索引 方法 查询 电子设备
【说明书】:

发明提供了一种数据索引方法、数据查询方法及电子设备,数据索引方法包括:按照多个数据记录内预设字段的值创建关于多个数据记录的聚集索引,多个所述数据记录用于存储数据文件,所述预设字段的值为所述聚集索引的字段值;针对每个所述数据记录,绘制所述数据记录在所述数据文件中的偏移量关于字段值的数据分布图;对所述数据分布图进行曲线拟合,得到包含所述字段值与所述偏移量之间对应关系的索引关系式,以便于根据待查询的数据记录的字段值计算偏移量,进而查询到数据记录,达到减少索引数据的数据量,节省存储资源,便于将索引数据全部加载到磁盘中,查询时,只需一次定位即可查找到数据记录的技术效果。

技术领域

本发明涉及大数据索引技术领域,尤其是涉及一种数据索引方法、数据查询方法及电子设备。

背景技术

Hadoop是一个能够对大量数据(例如几个GB、几个TB的文件)进行分布式处理的软件框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据,它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。

目前已知的支持大数据的数据索引包括多级合并树和B+树等。以B+树为例,索引数据占用的存储资源会存在一个最小的极限,假设目标是一个查询平均扫描400KB的数据,2GB的数据大约就是2000MB/400KB=5K个索引项。假设key和偏移量都是64位整数,则一个索引项16字节,索引数据会有80KB,占用的存储资源较多,导致根据索引查询数据文件效率很低。

发明内容

有鉴于此,本发明的目的在于提供一种数据索引方法、数据查询方法及电子设备。以缓解现有技术中存在的索引数据占用的存储资源多,根据索引查询数据文件效率很低的技术问题。

第一方面,本发明实施例提供了一种数据索引方法,包括:

按照数据文件对应的多个数据记录中预设字段的字段值的顺序,创建所述数据文件的聚集索引,各个所述数据记录在所述数据文件中的位置偏移量不同;

为数据文件中的多个数据记录绘制字段值所对应的位置偏移量分布;

对所述各个字段值所对应的位置偏移量分布进行曲线拟合,得到拟合函数,以便于根据待查询数据记录中预设字段的字段值确定位置偏移量,进而根据确定的位置偏移量获取数据记录。

结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,对所述各个字段值所对应的位置偏移量分布进行曲线拟合,得到拟合函数,包括:

对多个字段值所对应的位置偏移量分布进行曲线拟合,得到拟合函数;

根据所述拟合函数,计算得到各个数据记录的位置偏移量;

在多个数据记录对应的实际的位置偏移量与计算得到的位置偏移量之间的偏差值均小于预设阈值时,确定所述拟合函数满足预设条件,保留所述拟合函数。

结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述对所述各个字段值所对应的位置偏移量分布进行曲线拟合,得到拟合函数,还包括:

当所述拟合函数不满足预设条件时,将多个字段值划分为两个字段值集合;

针对每个所述字段值集合,分别对多个字段值所对应的位置偏移量分布进行曲线拟合,得到拟合函数;

当仅存在一个拟合函数满足预设条件时,将不满足预设条件的拟合函数对应的字段值集合中的多个字段值再次划分为两个字段值集合;

将再次划分得到的字段值集合中邻接满足预设条件的拟合函数的字段值集合,和,与预设条件的任一拟合函数对应的字段值集合组合后进行曲线拟合,得到拟合函数;

根据所述拟合函数,计算得到各个数据记录的位置偏移量,直至得到的拟合函数满足预设条件。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京柠檬微趣科技股份有限公司,未经北京柠檬微趣科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710824712.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top