[发明专利]一种针对MapReduce计算的数据保密方法及系统有效
申请号: | 201811548683.9 | 申请日: | 2018-12-18 |
公开(公告)号: | CN109684856B | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 王永智;沈玉龙;马佳文;张小宇 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F21/60 | 分类号: | G06F21/60;G06F21/62 |
代理公司: | 厦门市首创君合专利事务所有限公司 35204 | 代理人: | 连耀忠;李艾华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 mapreduce 计算 数据 保密 方法 系统 | ||
本发明公开了一种针对MapReduce计算的数据保密方法及系统,包括:在MapReduce的标准reduce阶段reduce2前添加另一reduce阶段reduce1;在map阶段的函数中写入随机分配函数将map阶段每个map任务中的数据平均发送给reduce1阶段的每个reduce任务;将reduce1阶段每个reduce任务合并的键值对数据分别发送给reduce2阶段的每个reduce任务,或者,在键值对数据中添加假键值对数据后分别发送;对数据进行处理,丢弃不属于reduce1阶段各个reduce任务合并的键值对数据。本发明实现了云计算平台中MapReduce作业数据的机密性保护。
技术领域
本发明涉及云计算数据保密技术领域,特别是一种针对MapReduce计算的数据保密方法及系统,保护了远程执行环境场景下基于MapReduce框架的数据和隐私,避免了应用程序的数据隐私被恶意观察者获取。
背景技术
MapReduce是一种并行编程模型,用于大规模数据集的并行计算,具有函数式编程语言和矢量编程语言里的特性,具有数据划分和计算任务调度、系统优化、出错检测和恢复的功能,因此,使得MapReduce适用于日志分析、机器学习、分布排序等应用程序。一个MapReduce作业是一个用户希望被执行的工作单元:它包括输入数据,MapReduce程序和配置信息。MapReduce通过把作业分成tasks(任务)的形式来运行该作业。任务分为map任务(map task)和reduce任务(reduce task)两种。参见图1所示,多reduce任务的标准MapReduce的数据流是由分片、Map、Reduce等阶段构成。MapReduce中的每个map任务可以细分为4个阶段:record read(用于数据分割)、map、combine(用于数据聚合,该阶段可省去)、partition(用于数据拆分)。Hadoop中的每个reduce任务可以细分为4个阶段:shuffle(混排)、sort(排序)、reduce和output format(输出格式)。
Hadoop是MapReduce框架的一种实现。它是开发和运行处理大规模数据的软件平台,是Apache用java语言实现的开源软件框架,实现由大量计算机组成的集群对海量数据进行分布式计算。Hadoop具有高效率、成本低、扩容能力强和可靠性的优点。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。
SGX技术全称Intel Software Guard Extensions,是一组x86-64ISA扩展,可以设置受保护的执行环境(称为Enclave),除了处理器和用户放置在其包围区内的代码之外,不需要任何信任。一旦软件和数据位于Enclave中,即便操作系统或者VMM(Hypervisor)也无法影响Enclave里面的代码和数据。Enclave的安全边界只包含CPU和它自身。Enclave受到处理器的保护:处理器控制对Enclave内存的访问。试图从Enclave外部读取或写入正在运行的Enclave的存储器的指令都将失败。Enclave缓存行在写入内存(RAM)之前经过加密和完整性保护。可以通过类似于Intel x86架构中的一种call gate调用机制从不受信任的代码调用Enclave代码,该机制将控制转移到Enclave内的用户定义的入口点。SGX支持远程认证,它使远程系统能够以加密方式验证特定软件是否已在安全区Enclave内加载,并建立端到端的加密通道共享机密。
云计算是网格计算、分布式处理、并行处理的发展,可看作是这些计算机科学概念上的商业服务模式的实现,是一片用于计算的、能提供超大规模计算资源的服务器集群。作为基于网络计算的商业服务模式,云计算的用户可以按自己需求获取存储空间、计算能力、软件服务等,将计算任务分布在由大量计算机构成的资源池,使得用户的计算能力不再受自身的资源限制,而将负载较大的计算任务外包给云以完成高代价的计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811548683.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置