[发明专利]一种面向HDFS访问模式的保护方法和系统有效
申请号: | 201910380830.4 | 申请日: | 2019-05-08 |
公开(公告)号: | CN110245515B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 沈晴霓;秦嘉;吴鹏飞;康雨城;刘忠开 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 hdfs 访问 模式 保护 方法 系统 | ||
本发明涉及一种面向HDFS访问模式的保护方法和系统。该方法将对HDFS集群的数据节点的读操作和写操作分解为先读后写的两次原子操作,以隐藏文件的操作类型;在向数据节点写文件之前为文件增加混淆数据块以隐藏文件的分块数量;在每次读取文件之后从数据节点中删除此文件,并随机选择客户端的文件缓冲区的一个文件写回到数据节点,以隐藏文件存储的数据节点位置;通过文件的存储位置的不断变化,隐藏文件的访问频率和访问顺序。本发明给出了基于ORAM技术的HDFS访问模式保护方案的设计与实现,填补了HDFS访问模式保护的空白,在增强HDFS安全性的同时,带来的性能开销处于可以接受的范围。
技术领域
本发明涉及Hadoop分布式文件系统(HDFS)的数据保护,尤其涉及一种面向HDFS访问模式的保护方法和系统。
背景技术
HDFS(Hadoop Distributed File System)是Hadoop核心的分布式文件系统。HDFS常用于存储大型文件,类似于传统的分布式系统,当数据集的大小超过一台计算机的存储上限时,将这个数据集进行分割之后分别存储在大量廉价的服务器上。HDFS目前被广泛的应用于工业界和学术界中。近几年来人们对于数据隐私保护的要求越来越高,无疑给HDFS的数据隐私保护能力带来了更大的挑战。对于目前版本的HDFS系统来讲,系统设计在数据安全方面重点考虑了数据的可用性和数据的完整性,保护数据机密性的策略比较少。比如可以配置基于kerberos和ACL的访问控制策略以及透明加密技术。因此国内外对HDFS上数据机密性保护的研究很多,主要是在HDFS上设计和实现加密算法,主要思想是保证用户在读写操作的时候,使用的是密文数据,只有用户保存着自己的私钥,数据只能在客户端加密和解密,其他人不能获得私钥和明文,这样以来就保护了用户的隐私信息。
但是大量研究发现,仅仅对数据进行加密并不能完全保护用户的隐私数据,攻击者即使无法解密用户存储的敏感数据,仍然可以通过统计分析用户的访问频率和访问顺序等访问模式,推断出用户的隐私信息。ORAM(不经意随机访问机)是目前保护访问模式的一种重要手段,最早由Goldreich和Ostrovsky提出,此技术诞生时的研究背景是软件保护,即为了隐藏程序的存储器访问模式,用来防止软件被反编译等手段进行反向工程。ORAM可以隐藏数据的访问模式,将每次的访问进行混淆,让攻击者不能区分访问是真实的还是伪造的,因此攻击者将不能获得用户数据的存储位置、访问频率和访问顺序等隐私信息,也就无法进一步推断出用户数据的内容和重要程度等信息。
现有方法的缺点和局限性在于:HDFS作为一种被工业界和学术界广泛使用分布式存储系统,仅仅依靠数据加密无法抵抗所有类型的攻击,攻击者仍然可以通过用户的访问模式推断出隐私信息,目前还没有相关研究实现对HDFS用户访问模式的保护方案,这对于众多使用HDFS进行分布式存储的公司和个人用户来讲,无疑产生了巨大的安全隐患。比如攻击者可以通过收集用户对不同数据节点的访问次数,再根据这些访问次数绘制一张数据节点重要程度排名表,用户访问次数最多的节点就是用户某段时间来讲最为重要的文件的存储位置,攻击者接下来就可以集中资源攻击最重要的数据节点。集群中的节点数量可能量级很大,如果攻击者不能掌握用户的访问频率,就需要攻击成千上万的节点,这显然是不现实的,因此访问频率的泄露极大降低了攻击成本。攻击者还可以通过用户对数据节点的访问顺序,推断出访问顺序和特定操作之间的关联关系,当用户再次出现此访问顺序时就可以推断出用户会接着进行这项操作,这就泄露了用户的隐私信息,攻击者甚至可以接着设计针对这项操作的攻击方案。
发明内容
大量研究证明仅仅对数据进行加密不能抵抗所有类型的攻击,攻击者仍然可以通过观察用户的访问频率推测出隐私信息,目前还没有有效的手段保护HDFS中用户的访问模式,攻击者就可以通过观察HDFS中用户对数据的访问频率、访问顺序和文件分块数等访问模式,推测出用户数据的重要程度、关联关系以及目标文件的存储位置等隐私信息,并且可以利用这些信息进行下一步攻击。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910380830.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于区块链的分布式计算方法及系统
- 下一篇:一种消息处理方法和装置