[发明专利]分布式数据集索引在审
申请号: | 202010824407.1 | 申请日: | 2018-01-30 |
公开(公告)号: | CN111966684A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | B·P·鲍曼;G·L·基纳;S·E·克吕格 | 申请(专利权)人: | 赛思研究所 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/27 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 张凌苗;刘春元 |
地址: | 美国北卡*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 数据 索引 | ||
1.一种装置,包括多个节点设备中的第一节点设备的处理器,以及用于存储指令的第一节点设备的存储设备,当所述指令由处理器执行时,使处理器执行操作,所述操作包括:
在第一节点设备处存储多个超级单元中的第一超级单元,数据集从由至少一个数据设备维护的数据文件被划分为所述多个超级单元,其中:
多个超级单元被分布在多个节点设备之中;
每个超级单元包括多个数据单元;
多个数据单元中的每个数据单元包括多个数据记录;以及
多个数据记录中的每个数据记录包括在其处存储数据集的数据值的字段的集合;
针对第一超级单元内的每个数据单元存储对应于数据单元的单元索引,其中单元索引包括:
存储在数据单元内的数据记录之中的字段的集合中的第一数据字段内的值的范围的指示;
对应于第一数据字段的第一唯一值索引,其中对于被存储在数据单元内的数据记录之中的第一数据字段内的每个数据值,第一唯一值索引包括数据单元内的单个数据记录的标识符,其中数据值被存储在第一数据字段内;以及
重复值索引的第一集合,其中对于被存储于在第一唯一值索引中识别的数据记录的第一数据字段内的至少一个数据值,重复值索引的第一集合的重复值索引包括数据单元内的附加数据记录的至少一个标识符,其中数据值也被存储在第一数据字段内;
在第一节点设备处从控制设备并且至少部分地与多个节点设备中的其他节点设备并行地接收查询指令,所述查询指令指定要针对满足指定搜索标准的数据记录对数据集执行的搜索的搜索标准,其中搜索标准包括要在第一数据字段内搜索的至少一个数据值;
响应于接收到查询指令并且对于第一超级单元内的每个数据单元,使处理器执行指定搜索的操作,所述操作包括:
将数据值与在对应的单元索引中指示的值的范围进行比较,以确定数据单元是否包括满足指定搜索标准的至少一个数据记录;以及
响应于确定数据单元包括满足指定搜索标准的至少一个数据记录,使用至少第一唯一值索引来执行对数据单元的数据记录的搜索以识别满足搜索标准的一个或多个数据记录;以及
响应于识别满足指定搜索标准的至少一个数据记录,使处理器执行操作,所述操作包括:
针对识别也满足指定搜索标准的数据单元的一个或多个附加数据记录的重复值索引在重复值索引的第一集合内搜索;
生成指示包括满足指定搜索标准的至少一个数据记录的第一超级单元并且指示一个或多个附加记录的结果数据;以及
将结果数据提供给控制设备。
2.如权利要求1所述的装置,其中:
第一超级单元的多个数据单元包括第一数据单元和第二数据单元;
使处理器在第一执行线程上在第一数据单元内执行指定的搜索;以及
使处理器在第二执行线程上在第二数据单元内执行指定的搜索。
3.如权利要求2所述的装置,其中使处理器将处理器的单独处理器核分配给第一和第二执行线程中的每个。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于赛思研究所,未经赛思研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010824407.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置