[发明专利]一种数据处理方法、装置及系统有效
申请号: | 202011519635.4 | 申请日: | 2020-12-21 |
公开(公告)号: | CN112637327B | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 杨俊 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | H04L67/1097 | 分类号: | H04L67/1097;H04L67/1008 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 沈园园 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 系统 | ||
本申请涉及一种数据处理方法、装置及系统,该技术方案首先按照数据分布算法计算数据在存储集群中的存储位置,当按照数据分布算法计算出的数据存储节点剩余容量不足时,从其他存储节点中选择剩余容量满足该数据的数据量要求的存储节点,来存储该数据。这样,可以保证数据被写入存储集群中的存储节点,极大地提升各存储节点的空间利用率,降低存储成本,避免存储集群中各存储节点数据存储不均衡的问题。另外,也避免再平衡增加额外资源开销及失败可能性较大的问题。
技术领域
本申请涉及分布式数据存储技术领域,尤其涉及一种数据处理方法、装置及系统。
背景技术
随着大规模存储应用需求的增加,分布式存储系统采用可扩展的系统结构,利用多台存储设备分担存储负荷,不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
但是,现有的分布式存储方式,基于一致性哈希、CRUSH等数据分布算法,通常会造成各存储设备上的数据分布不均,导致单个存储设备的数据量远高于其它存储设备,这样,就使得各存储设备的全部存储容量难以被全部使用,可能写到70%~90%就无法继续写入,各存储设备的存储利用率较低。这对于大规模存储集群来说,浪费的存储容量相当可观。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种数据处理方法、装置及系统。
一方面,本申请提供了一种数据处理方法,包括:
获取数据写入请求,所述数据写入请求中包括待写入数据的第一键值;
根据通过数据分布算法对所述第一键值进行计算得到的第一特征值,确定在存储集群中所述待写入数据对应的第一初始存储节点,其中,所述存储集群包括至少两台存储服务器,每台所述存储服务器上包括至少一个存储节点;
当所述第一初始存储节点的剩余容量小于所述待写入数据的数据量时,从所述存储集群中选择剩余容量大于所述数据量的存储节点作为第一目标存储节点;其中,各存储节点的剩余容量由所述存储节点所在存储服务器上的存储控制装置获取并上报;
将数据写入操作指令发送到所述第一目标存储节点对应的第一存储控制装置,所述数据写入操作指令包括所述待写入数据及所述第一目标存储节点的第一目标节点地址,由所述第一存储控制装置根据所述数据写入操作指令将所述待写入数据写入所述第一目标存储节点。
可选的,所述从所述存储集群中选择剩余容量大于所述数据量的存储节点作为第一目标存储节点,包括:
从所述剩余容量大于所述数据量的存储节点中,选择所述剩余容量最小的存储节点作为第一目标存储节点。
可选的,所述方法还包括:
确定所述第一目标存储节点对应的第一目标节点地址,及所述待写入数据在所述第一初始存储节点中的第一初始存储位置信息;
当所述第一初始存储节点的剩余容量大于所述第一目标节点地址的字节数时,将地址写入操作指令发送至所述第一初始存储节点所在存储服务器上的第二存储控制装置,所述地址写入操作指令包括所述第一目标节点地址及所述第一初始存储位置信息;由所述第二存储控制装置根据所述地址写入操作指令将所述第一目标节点地址写入所述第一初始存储位置信息对应的存储位置。
可选的,所述方法还包括:
接收数据读取请求,所述数据读取请求中包括待读取数据的第二键值;
根据通过所述数据分布算法对所述第二键值进行计算得到的第二特征值,确定在所述存储集群中所述待读取数据对应的第二初始存储位置信息;
将第一数据读取操作指令发送至所述第二初始存储位置信息对应的第三存储控制装置,所述第一数据读取操作指令包括:所述第二初始存储位置信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011519635.4/2.html,转载请声明来源钻瓜专利网。