[发明专利]分布式存储图数据的优化方法、电子装置和存储介质有效
申请号: | 202110438145.X | 申请日: | 2021-04-22 |
公开(公告)号: | CN113254527B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 吴敏;王辰光 | 申请(专利权)人: | 杭州欧若数网科技有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/22;G06F16/2455;G06F16/901 |
代理公司: | 杭州创智卓英知识产权代理事务所(普通合伙) 33324 | 代理人: | 张超 |
地址: | 311100 浙江省杭州市余杭区仓前街道欧美金*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 存储 数据 优化 方法 电子 装置 介质 | ||
本申请涉及一种分布式存储图数据的优化方法、电子装置和存储介质,其中,该分布式存储图数据的优化方法包括:定期在各数据分片所在的存储服务上扫描各数据分片中的所有边;根据各数据分片中的所有边,确定起点与终点所属的数据分片,并计算各数据分片之间的出边关联度和入边关联度;根据各数据分片之间的出边关联度和入边关联度,通过预设的关联度矩阵权重,计算各数据分片之间的相关度;将相关度高的数据分片存储在相同的存储服务上。通过本申请,解决了分布式图数据库的partition分布难以优化的问题,降低了数据调用的网络通信开销,提升了分布式图数据库的性能。
技术领域
本申请涉及数据处理技术领域,特别是涉及分布式存储图数据的优化方法、电子装置和存储介质。
背景技术
随着大数据技术和人工智能技术的快速发展,超大规模关系网络逐步在社交推荐、风险控制、物联网、区块链、安防等领域被广泛应用。这类超大规模的关系网络通常以数据结构中的图论(Graph)为理论基础,而构成图(关系网络)的核心要素包括:节点(vertex或node,也称为点)以及节点上的属性、关系(edge或者Relationship,也称为边)以及关系上的属性。例如,在社交网络中,节点可以对应个人,其属性可以是邮箱、账号等;关系可以对应好友关系或者转账关系,关系的属性可以是转账金额、转账时间等,且关系具有方向性。由于图论的节点-关系-属性模型可以非常方便的描述关系网络,所以目前通常选择基于图论的图数据库存储超大规模的关系网络。
由于数据量增长的速度远远快于摩尔定理,单机版的图数据库,例如Neo4j3.X、RedisGraph等,已经越来越难满足快速增长的数据存储需求和数据处理需求。因此,分布式图数据库成为首选方案。
对于采用分布式图数据库对超大规模关系网络进行分布式存储时,需要将一个网络(图)分割为N个数据分片(partition),由不同的服务器各自存储和处理这些数据分片。对于超大规模的图不存在天然的分片方式,即使对于一个静态的图,其分片算法也是多项式复杂的。因此,目前不存在一种方式:可以事先完成数据分片,并在多台服务器上完成分布,除非图数据是静态的,且已经研究过如何进行数据分片。但是在实际应用场景中,对于图数据库而言,数据是持续变化的,很少存在静态数据的场景,因此,数据分片是分布式图数据库存储图数据的难点。
目前,采用完全对称分布的分布式图数据库架构,在数据库系统层面实现图数据分片和负载均衡,对于用户来说最友好。这一类典型的分布式图数据库以Nebula Graph为代表。Nebula Graph的查询和存储服务采用完全对称的分布式架构,一个图可以均匀分散为多个partition,通过一定算法(例如hash)将顶点和边的存储数据分配到不同partition中,不同partition分布在不同服务器之上。此外,一个partition的多拷贝间采用Raft算法,保持数据一致性,从而实现分布式的特性。但是,由于这类数据库不需要用户告知图的特征信息和请求特征,仍然较难优化图数据的partition分布,可能会存在数据局部性比较随机、网络通信开销大的问题。
目前针对完全对称分布架构的图数据库的partition分布难以优化的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种分布式存储图数据的优化方法、电子装置和存储介质,以至少解决完全对称分布架构的图数据库的partition分布难以优化的问题。
第一方面,本申请实施例提供了一种分布式存储图数据的优化方法,所述方法包括:
定期在各数据分片所在的存储服务上扫描各数据分片中的所有边;
根据所述各数据分片中的所有边,确定起点与终点所属的数据分片,并计算各数据分片之间的出边关联度和入边关联度;
根据所述各数据分片之间的出边关联度和入边关联度,通过预设的关联度矩阵权重,计算各数据分片之间的相关度;
将相关度高的数据分片存储在相同的存储服务上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州欧若数网科技有限公司,未经杭州欧若数网科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110438145.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置