[发明专利]大数据存储中副本存放、补全、节点选择方法及管理系统有效
申请号: | 201810545954.9 | 申请日: | 2018-05-25 |
公开(公告)号: | CN110535898B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 丁博;徐大青;张展国;贺彪;杨迎春;王少鹏;刘一擎;丁亮 | 申请(专利权)人: | 许继集团有限公司;许昌许继软件技术有限公司;国家电网有限公司 |
主分类号: | H04L67/1008 | 分类号: | H04L67/1008;H04L67/1097 |
代理公司: | 郑州睿信知识产权代理有限公司 41119 | 代理人: | 崔旭东 |
地址: | 461000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 存储 副本 存放 节点 选择 方法 管理 系统 | ||
本发明涉及大数据存储中副本存放、补全、节点选择方法及管理系统,该节点选择方法为:根据各数据节点服务器的实时状态信息及历史故障信息选取副本存放节点的评价指标,其中将数据发生故障的概率的预测值列入评价指标,确定各个评价指标的权值,根据权值计算得到数据节点进行副本存储。基于上述节点选择方法,按照三副本方案选择合适的节点进行副本存放。在副本故障需要补全时,先按照故障节点所在的机架上的活动节点进行副本补全,当副本故障节点所在的机架不能正常工作时,选择故障率相近的活动节点进行副本补全。本发明在不影响副本安全的情况下有效提高存储时的写入效率和负载均衡程度,从根本上解决集群长时间运行以后需要负载均衡的问题。
技术领域
本发明属于大数据存储及云计算技术领域,具体涉及一种大数据存储中副本存放、补全、节点选择方法及管理系统。
背景技术
现有的大数据存储系统一般为分布式存储(例如HDFS),节点失效和硬件故障是必须要考虑的问题,副本技术的运用保证了系统的可靠性和可用性。保证数据副本的恰当放置和选择也就可以保证更加高效地实现数据的存取。大数据存储策略普遍采用三副本策略,保证了数据的安全性,可以有效地支撑分布式计算,但是在考虑数据的局部性访问时,副本分布的不合理,会对数据本地化要求高的计算产生影响,会将任务分配给存有副本但性能较低的机器进而导致整个集群的性能下降。
当前常用的副本存放策略中提到的负载均衡,主要从数据量的角度解决负载不均衡以后让已有数据进行负载均衡,此时负载均衡的实现其本质是副本的转移。负载均衡只能算是对副本存放策略不合理的一种补救方法。理想的方法应该是放置副本时可以根据当前集群的性能情况自主选择或调整副本存放的位置。
已有的副本存放策略中也提出了根据机架、硬盘使用量、负载情况进行放置的方法,但是不同方法在选择时参考的影响因素均比较单一,依然不能兼顾负载均衡和存储效率问题。尤其是在异构集群中,这类问题就更加明显,比如在一些性能较差的机器上可能存在过高的负载,有些性能较高的机器上却出现空闲的情况。大数据存储集群中发生副本的复制和转移一般是因为服务器的硬件故障造成的,一般服务器的设计使用时间为5-7年,单台服务器的实际使用年限与服务器批次,使用强度,使用环境都有关系。目前的副本存储方法中没有考虑针对服务器故障或老化的因素,如参考文献《基于支持向量机的HDFS副本放置改进策略》(作者:罗军等,计算机工程,2015年11月第41卷第11期)其仅考虑相对负载率、网络距离、磁盘性能、CPU性能和内存5个因素,当服务器发生故障时,数据的复制和迁移动作是随机的,这样就会造成副本放置的无序化。
从运筹学的角度分析,大数据的副本存放策略可以认为是一种决策性问题,而且是难以定量分析的决策性问题。针对此类问题,有一种层次分析法,将涉及到的评价指标进行分别比对,可以定量分析出几组关系的相对重要性,最后通过对各类影响因素加权获得最为理想的效果,理论上只要能够给出合适的权值就能得出理想的结果。
发明内容
本发明提供给了一种大数据存储中副本存放、补全、节点选择方法及管理系统,以解决现有的集群副本存储策略中没有对各数据节点服务器状态进行有效感知,选择参考的影响因素比较单一,不能兼顾负载均衡和存储效率问题。
为解决上述技术问题,本发明的大数据存储中副本存放节点选择方法包括以下四个单元方案:
单元方案一,根据各数据节点服务器的实时状态信息及历史故障信息选取副本存放节点的评价指标,包括磁盘使用率、磁盘I/O负载率、CPU负载率、内存负载率、读写任务连接率及节点故障率,所述读写任务连接率为当前服务器读写任务的连接数与文件系统允许的读写任务最大连接数的比值;确定各个评价指标的权值,然后根据以下公式计算出的参考值来选择数据节点作为副本存放位置:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于许继集团有限公司;许昌许继软件技术有限公司;国家电网有限公司,未经许继集团有限公司;许昌许继软件技术有限公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810545954.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置