[发明专利]结合平衡策略的图数据划分与分布式存储方法有效
申请号: | 201811568696.2 | 申请日: | 2018-12-21 |
公开(公告)号: | CN109710774B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 汪璟玢;卞倩虹 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/901;H04L67/1097 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市闽*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 平衡 策略 数据 划分 分布式 存储 方法 | ||
本发明涉及一种结合平衡策略的图数据划分与分布式存储算法。以标签图作为初始划分图,将标签图转化为节点与边都带权值的无向图,进行边融合时使用HEM算法将大权的边优先进行融合,可以将关系密切的节点划分到同一分区;在初始划分阶段,使用趋近公式将图的顶点总权值尽可能的平均分割给k个集群;同时本发明充分考虑到知识碎片在分布式环境下的存储问题,提出平衡策略对知识碎片进行存储。
技术领域
本发明属于知识图谱下的海量数据存储与检索技术,具体为一种结合平衡策略的图数据划分与分布式存储方法。
背景技术
由于知识图谱拥有强大的语义处理能力和开放组织能力,大规模知识图谱库的研究和应用在不同领域中都引起了足够的注意力。知识图谱是以RDF(Resource DescriptionFramework)作为元数据的基本表达方式,对知识图谱的存储本质上是对RDF图数据的存储。随着RDF图数据的不断增长,传统的单机存储和处理已经无法满足海量数据存储的需求,必须将图数据划分到多台机子上进行分布式处理。传统的在分布式环境下对图数据进行划分时是基于文件进行水平分割而没有充分考虑图结构的特性,可能导致两个联系比较紧密的数据被划分到不同的存储节点上,带来大量跨存储节点的边。在对图进行遍历查询时可能导致集群分区间大量的跳跃访问,增大了检索响应时间,影响查询性能。而图数据的动态性也给分布式存储带来了巨大的挑战。
发明内容
本发明的目的在于针对上述问题,提供一种结合平衡策略的图数据划分与分布式存储方法,以标签图作为初始划分图,将标签图转化为节点与边都带权值的无向图,进行边融合时使用HEM算法将大权的边优先进行融合,可以将关系密切的节点划分到同一分区;在初始划分阶段,使用趋近公式将图的顶点总权值尽可能的平均分割给k个集群。同时本发明充分考虑到知识碎片在分布式环境下的存储问题,提出平衡策略对知识碎片进行存储。
为实现上述目的,本发明的技术方案是:一种结合平衡策略的图数据划分与分布式存储方法,包括如下步骤:
步骤S1、采用Metis+算法对初始图数据进行粗糙化;
步骤S2、对经步骤S1粗糙化处理的图数据,采用Metis+算法进行初始划分,并将初始划分数据存入分布式存储集群的对应分区中;
步骤S3、根据步骤S2的初始划分存储结果,实施平衡策略对动态知识碎片进行存储。
在本发明一实施例中,所述Metis+算法为改进的Metis算法。
在本发明一实施例中,所述步骤S1,实现方式为:将初始属性图G转换成对应的标签图GL,再将标签图GL转换成带权无向图GL0后,运行HEM边融合算法,得到粗糙化后的图,并判断图中的顶点总数是否满足|Vm|100,若否,则再次进行粗糙化;若是,得到最终的粗糙化后的图GLm。
在本发明一实施例中,所述步骤S2,实现方式为:对粗糙化后的图GLm,运行加权LND算法,同时结合趋近公式对图GLm进行划分。
在本发明一实施例中,所述步骤S1,具体实现方式如下:
假设在Neo4j分布式集群中有k个分区,每个分区的存储容量为M,集群总容量为kM,P={P(1),P(2),...,P(k)}为当前所有分区状态总和,|P(i)|=n表示下标为i的分区中节点总数,1≤i≤k,P(i)表示分区i当前已有的节点和边状态;
设初始属性图G,G=N,R,L,P表示图中节点,边,标签,属性状态,|G|为属性图中节点总数,Memory(G)表示属性图的容量大小;存在关系M<Memory(G)kM,因此需要对初始属性图G=N,R,L,P进行划分,划分过程如下:
步骤S11、粗糙化的预处理步骤:
(1.1)将属性图转化为标签图GL作为划分的初始状态图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811568696.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:事件主体的生成方法及其装置
- 下一篇:一种基于多规则的知识图谱动态生成方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置