[发明专利]一种数据仓库中的数据保护方法及装置在审

专利信息
申请号: 201610053324.0 申请日: 2016-01-26
公开(公告)号: CN106997368A 公开(公告)日: 2017-08-01
发明(设计)人: 阳方 申请(专利权)人: 中兴通讯股份有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F21/60;G06F21/62
代理公司: 北京银龙知识产权代理有限公司11243 代理人: 许静,安利霞
地址: 518057 广东省深圳市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据仓库 中的 数据 保护 方法 装置
【说明书】:

技术领域

发明涉及数据安全领域,尤其涉及一种数据仓库中的数据保护方法及装置。

背景技术

Hive是一种数据仓库基础构架。它是一种可以存储、查询和分析存储在分布式文件系统(HDFS)中的数据的机制,它将传统的结构化数据表与HDFS上的数据文件进行映射,并提供简单的类结构化查询语言(SQL),进行查询。其中,SQL也称作查询语言(HQL),同时它可以将SQL语句转换为编程模型(MapReduce)任务进行运行,从而实现大规模数据的处理。Hive中用于承载数据的资源实体包括数据库、表、分区和桶,其中库可以看成多个表的集合,所以可以认为用户数据实际上都是存放在表、分区及桶三种实体对象中,所以,Hive中所有的操作实际上都可以看成是对表、列、分区或桶的操作。

Hive作为大规模的数据仓库和离线分析平台,目前已得到了非常广泛的应用,但随之而来的数据安全性问题却没有引起足够的重视。其中,Hive的数据安全性问题体现在下面几个方面:

1、Hive中所有用户都是平行的,没有系统超级管理员,无法对系统进行全局管理,无法限制某些非法用户的访问。

2、Hive中的各用户之间可以相互授权,但是只能对表的操作进行授权,对于列、分区或桶无法进行授权,即只能允许或禁止用户访问某个表,导致无法根据需要对表数据进行列级别、分区级别、桶级别的操作控制,如只允许或禁止用户访问某几列或访问某几个桶的数据等。

3、更为重要的是,Hive中的数据对应的数据文件是存放在HDFS上,Hive对于存放在HDFS上的文件,通常采用的存储格式是文本格式(TEXT)或者记录列文件格式(Record Columnar File,RCFile),如果某个Hive用户没有得 到其他Hive用户的授权,获得查询其他用户创建的表、列、分区或桶的权限,但仍然能通过其他方式直接获取底层HDFS文件的方式,获取数据信息,这样相当于绕过了Hive的上层的权限控制机制,给数据仓库的数据安全造成了严重威胁。

针对上述问题,目前暂时没有发现完整、系统化的方案提出,现有技术往往通过第三方工具对数据进行简单加密来进行数据保护或者通过引入安全认证(Kerberos)组件对用户进行认证。具体方法如下:

现有方法1:Hive现有的权限控制流程不变,在数据导入Hive的表之前,就对原始数据采用第三方加密工具进行加密,再导入到Hive的表中,收到查询请求,先将数据从Hive表中导出,再手工进行解密。

缺点:只能有限的解决问题;由于要反复进行数据的导入导出,操作繁琐、耗时;第二,数据是在Hive之外通过部署其他加密工具实现的,增加了系统的复杂性,而且,数据加密后,数据长度一般会增加,再导入到Hive中时,会降低Hive系统的导入效率。并且,由于数据是在进入Hive之前加密的,无法借用Hive的MapReduce处理能力。最后,只能按照指定方式(通常是一个表)进行数据加密,无法灵活的选择加密对象,比如选择某一个或几个表、列、分区或桶等。

现有方法2:在Hive权限控制中引入第三方Kerberos(网络认证协议)组件:在Hive的权限控制模块中可以直接接入第三方的Kerberos组件,作为权限控制模块的一部分,通过Kerberos组件进一步对用户进行认证,防止恶意用户伪造用户。

但这种方式部署成本比较高,而且非常复杂,Kerberos组件生成证书和配置的步骤相当繁琐,首次配置也许可以接受,但是对于用户权限的修改,机器的减容扩容,会造成证书要重新生成,再分发证书,重启系统。而且还要考虑Kerberos的宕机导致整个集群无法服务的风险,加上Kerberos的自身配置也比较复杂,而且存在效率问题,这些考虑,也导致Kerberos在大数据上的应用比较稀少。另外,这个方式无法解决授权的级别问题,且这种方式无法对底层HDFS的数据施加保护。

综上所述,现有技术中的数据保护方法,存在安全机制不健全、操作繁琐、 耗时,无法对表、列、分区及桶进行灵活操作,且保密程度不高、效率低下及部署成本较高的问题。

发明内容

为了克服现有技术存在的上述问题,本发明的实施例提供了一种数据仓库中的数据保护方法及装置,能够通过对数据仓库用户实施接入控制及列、分区或桶级别的权限控制,并结合对用户数据进行加密,实现了对数据仓库中的数据的有效保护。

为了解决上述技术问题,本发明采用如下技术方案:

依据本发明实施例的一个方面,提供了一种数据仓库中的数据保护方法,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610053324.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top