[发明专利]一种HDFS中热点数据文件的动态副本创建方法和系统在审
申请号: | 201410350401.X | 申请日: | 2014-07-22 |
公开(公告)号: | CN104102725A | 公开(公告)日: | 2014-10-15 |
发明(设计)人: | 郭美思;吴楠 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王康;李丹 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 hdfs 热点 数据文件 动态 副本 创建 方法 系统 | ||
技术领域
本发明涉及数据文件的副本创建,尤其涉及一种Hadoop分布式文件系统(HDFS)中热点数据文件的动态副本创建方法和系统。
背景技术
随着现代网络的发展,数据量剧增。为实现对海量数据量进行高效、可靠地处理,出现了Hadoop集群,其由多台廉价机器作为集群节点搭建而成。Hadoop集群能够把应用程序分割成许多很小的工作单元,每个单元可以在任何集群节点上执行。此外,Hadoop还提供一个分布式文件系统HDFS用来在各个集群节点上存储数据,提供了对数据读写的高吞吐率。
目前,HDFS在为节点配置数据文件副本时不区分冷热数据文件,对所有的数据文件均通过静态配置副本以保证容错性,一旦配置完成,集群启动后数据文件的副本数就一直保持配置值的副本数。
并且,现有的静态配置的文件副本通常存储在固定的集群节点上,如果数据文件的处理请求不是发生在所述固定的集群节点上,需要从所述固定集群节点上存储的文件副本传输到请求发生的集群节点上,大量的数据移动也会增加数据读取延迟和网络开销。
发明内容
本发明提供了一种HDFS中热点数据文件的动态副本创建方法和系统,以解决如何避免数据文件副本大量移动带来的数据读取延迟和网络开销大的技术问题。
一种HDFS中热点数据文件的动态副本创建方法,所述方法包括:
识别热点数据文件;
对所述文件动态创建副本,包括:优先在对所述热点数据文件发生请求的本地节点创建所述热点数据文件的副本。
可选地,所述识别热点数据文件,包括:
按时间顺序依次记录被访问的数据文件并为每个被访问的数据文件分配权值;分配权值时,先访问的数据文件被分配的权值小,后访问的数据文件被分配的权值大;
达到预设时间时,统计记录的每个被访问的数据文件被分配的权值之和,权值之和最大的文件为热点数据所在的文件。
可选地,所述方法还包括:
在预设时间到达前,若按时间顺序依次记录的被访问的数据文件占用的空间达到或超过阈值,则删除最早记录的被访问的数据文件直至已记录的被访问的数据文件占用的空间满足要求。
可选地,所述方法包括:
将被访问的数据文件存储进队列,依次对进入队列中的数据文件分配从小到大的权值;
在预设时间到达前,若队列满,则按照先入先出(FIFO)原则,将数据文件从队列头开始移出,将新被访问的数据文件继续存储进该队列;并且将更新后的队列中的数据文件的权值顺序设置为与更新前的队列中的数据文件的权值顺序相同。
可选地,所述依次对进入队列中的数据文件分配从小到大的权值,包括:
将位于对头的数据文件分配权值1,队列中对头数据文件的后续数据文件被分配的权值比各自前一个数据文件被分配的权值多1。
可选地,对所述文件动态创建副本,还包括:
当所述本地节点创建的热点数据文件的副本数达到预设的节点可存储副本阈值时,则依次在本地节点所在机架的其他节点、其他机架的节点上创建所述热点数据文件的副本。
一种HDFS中热点数据文件的动态副本创建系统,所述系统包括文件识别模块、副本创建模块,其中,
所述文件识别模块,用于识别热点数据文件;
所述副本创建模块,用于对所述文件动态创建副本,包括:优先在对所述热点数据文件发生请求的本地节点创建所述热点数据文件的副本。
可选地,所述文件识别模块,用于识别热点数据文件,包括:
按时间顺序依次记录被访问的数据文件并为每个被访问的数据文件分配权值;分配权值时,先访问的数据文件被分配的权值小,后访问的数据文件被分配的权值大;达到预设时间时,统计记录的每个被访问的数据文件被分配的权值之和,权值之和最大的文件为热点数据所在的文件。
可选地,
所述文件识别模块,还用于在预设时间到达前,若判断出按时间顺序依次记录的被访问的数据文件占用的空间达到或超过阈值,则删除最早记录的被访问的数据文件直至已记录的被访问的数据文件占用的空间满足要求。
可选地,
所述文件识别模块,用于将被访问的数据文件存储进队列,依次对进入队列中的数据文件分配从小到大的权值;在预设时间到达前,若队列满,则按照先入先出(FIFO)原则,将数据文件从队列头开始移出,将新被访问的数据文件继续存储进该队列;并且将更新后的队列中的数据文件的权值顺序设置为与更新前的队列中的数据文件的权值顺序相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410350401.X/2.html,转载请声明来源钻瓜专利网。