[发明专利]数据索引方法、数据查询方法及电子设备有效
申请号: | 201710824712.9 | 申请日: | 2017-09-13 |
公开(公告)号: | CN107644070B | 公开(公告)日: | 2020-09-15 |
发明(设计)人: | 高翅 | 申请(专利权)人: | 北京柠檬微趣科技股份有限公司 |
主分类号: | G06F16/13 | 分类号: | G06F16/13 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 王术兰 |
地址: | 100037 北京市西城*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 索引 方法 查询 电子设备 | ||
本发明提供了一种数据索引方法、数据查询方法及电子设备,数据索引方法包括:按照多个数据记录内预设字段的值创建关于多个数据记录的聚集索引,多个所述数据记录用于存储数据文件,所述预设字段的值为所述聚集索引的字段值;针对每个所述数据记录,绘制所述数据记录在所述数据文件中的偏移量关于字段值的数据分布图;对所述数据分布图进行曲线拟合,得到包含所述字段值与所述偏移量之间对应关系的索引关系式,以便于根据待查询的数据记录的字段值计算偏移量,进而查询到数据记录,达到减少索引数据的数据量,节省存储资源,便于将索引数据全部加载到磁盘中,查询时,只需一次定位即可查找到数据记录的技术效果。
技术领域
本发明涉及大数据索引技术领域,尤其是涉及一种数据索引方法、数据查询方法及电子设备。
背景技术
Hadoop是一个能够对大量数据(例如几个GB、几个TB的文件)进行分布式处理的软件框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据,它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。
目前已知的支持大数据的数据索引包括多级合并树和B+树等。以B+树为例,索引数据占用的存储资源会存在一个最小的极限,假设目标是一个查询平均扫描400KB的数据,2GB的数据大约就是2000MB/400KB=5K个索引项。假设key和偏移量都是64位整数,则一个索引项16字节,索引数据会有80KB,占用的存储资源较多,导致根据索引查询数据文件效率很低。
发明内容
有鉴于此,本发明的目的在于提供一种数据索引方法、数据查询方法及电子设备。以缓解现有技术中存在的索引数据占用的存储资源多,根据索引查询数据文件效率很低的技术问题。
第一方面,本发明实施例提供了一种数据索引方法,包括:
按照数据文件对应的多个数据记录中预设字段的字段值的顺序,创建所述数据文件的聚集索引,各个所述数据记录在所述数据文件中的位置偏移量不同;
为数据文件中的多个数据记录绘制字段值所对应的位置偏移量分布;
对所述各个字段值所对应的位置偏移量分布进行曲线拟合,得到拟合函数,以便于根据待查询数据记录中预设字段的字段值确定位置偏移量,进而根据确定的位置偏移量获取数据记录。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,对所述各个字段值所对应的位置偏移量分布进行曲线拟合,得到拟合函数,包括:
对多个字段值所对应的位置偏移量分布进行曲线拟合,得到拟合函数;
根据所述拟合函数,计算得到各个数据记录的位置偏移量;
在多个数据记录对应的实际的位置偏移量与计算得到的位置偏移量之间的偏差值均小于预设阈值时,确定所述拟合函数满足预设条件,保留所述拟合函数。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述对所述各个字段值所对应的位置偏移量分布进行曲线拟合,得到拟合函数,还包括:
当所述拟合函数不满足预设条件时,将多个字段值划分为两个字段值集合;
针对每个所述字段值集合,分别对多个字段值所对应的位置偏移量分布进行曲线拟合,得到拟合函数;
当仅存在一个拟合函数满足预设条件时,将不满足预设条件的拟合函数对应的字段值集合中的多个字段值再次划分为两个字段值集合;
将再次划分得到的字段值集合中邻接满足预设条件的拟合函数的字段值集合,和,与预设条件的任一拟合函数对应的字段值集合组合后进行曲线拟合,得到拟合函数;
根据所述拟合函数,计算得到各个数据记录的位置偏移量,直至得到的拟合函数满足预设条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京柠檬微趣科技股份有限公司,未经北京柠檬微趣科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710824712.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高密度监测数据的抽稀方法
- 下一篇:缓存更新方法、装置及数据存储系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置