[发明专利]基于集群存储的空间元数据分组方法有效
申请号: | 201110436011.0 | 申请日: | 2011-12-22 |
公开(公告)号: | CN102521386A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 崔纪锋;张勇;李超;邢春晓 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 集群 存储 空间 数据 分组 方法 | ||
技术领域
本发明涉及存储系统技术领域,特别涉及一种基于集群存储的空间元数据分组方法。
背景技术
传统的空间数据管理都是基于关系型数据库系统,数据的记录存放在数据库的表中,这种方式非常适合于关系查询和事务处理,满足短事务频繁的应用场景。缺点是可索引数据项有限,复杂查询缓慢,索引开销较大,系统维护复杂,需要不断进行系统优化。而目前WebGIS的应用环境为基于集群存储的分布式文件系统,具有海量的大小文件类型,文件之间具有空间和属性等多种程度的相关性。基于网络存储的分布式文件系统(简称文件系统)的特点是将数据文件和文件检索描述的元数据记录分开存储,通过元数据记录检索定位数据存储块,然后利用连接数据来获取数据文件。文件系统的设计带来很多优点,比如可以在线扩展存储设备,这种方式极大地扩展了系统的存储能力,满足信息数据日益增长的应用场景,系统维护简单。缺点是空间关系查询和一致性维护较为复杂,复杂的事务处理的性能较弱。
中国专利申请CN101038590提出了一种空间数据集群存储系统及其数据查询方法,该专利申请基于集群存储系统提出了一种新的空间数据查询方法,提供的空间数据集群存储系统,包括空间应用客户端、空间对象管理器、空间对象存储设备集群,所述空间对象存储设备集群由多个空间对象存储设备组成,用于TB级或TB级以上海量空间数据的存储,实现具有数据库意识的存储,提供空间数据对象粒度存取访问,提供并行的空间数据传输和并行的查询处理能力。这种方法有三个问题,第一个问题是集群存储的架构是基于集中式对象存储设备,尽管能管理TB级的数据量,但可索引数据记录的个数有限;第二个问题是存储的数据对象频繁更新,影响了读操作的性能,由于只存储了值数据对象的序列号,在查询数据对象体的时候还需要进行二分查找;第三个问题是没有考虑表数据文件的分区与分布处理,影响了系统的并行查询能力和可扩展性。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何对基于集群存储的空间元数据进行分组,以提高检索效率。
(二)技术方案
为解决上述技术问题,本发明提供了一种基于集群存储的空间元数据分组方法,包括以下步骤:
S1:从地理数据文件的元数据表中获取具有待划分属性项的元数据记录;
S2:将选取的元数据记录按所述待划分属性项划分为不同的数据集,将各数据集分布在元数据服务器集群节点上,同一个服务器集群节点上的元数据记录的待划分属性项的值相同;
S3:对每个服务器集群节点上的元数据记录逐步进行聚类,得到若干组元数据记录组;
S4:对每个服务器集群节点上的地理数据文件的元数据记录进行分类,分入不同的元数据记录组,并建立每个节点的元数据目录树;
S5:对分组后的数据文件进行排序,将排序后的索引文件存放在相应节点上。
其中,所述步骤S2中还包括根据建立基于元数据记录的待划分属性项的索引。
其中,所述步骤S3具体包括:
对于每一个服务器集群节点,在其中选取预定数量的元数据记录为样本数据;
基于样本数据的属性相似度构建分类树:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110436011.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有防开启子母扣封装装置的包装盒
- 下一篇:降低共振响的储物箱盖