[发明专利]一种基于MapReduce的字段整体替换方法有效
申请号: | 201310101969.3 | 申请日: | 2013-03-27 |
公开(公告)号: | CN103150401B | 公开(公告)日: | 2017-03-08 |
发明(设计)人: | 杨超;方宸;涂来 | 申请(专利权)人: | 领航动力信息系统有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京华沛德权律师事务所11302 | 代理人: | 刘丽君 |
地址: | 430071 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mapreduce 字段 整体 替换 方法 | ||
技术领域
本发明涉及字段替换技术领域,主要适用于基于MapReduce的字段整体替换方法。
背景技术
今天,在这个数据信息的时代,当商业智能数据分析、科学数据处理、互联网应用等具有海量数据需求的应用变得越来越普遍的时候,我们需要一个更好的工具来帮助我们完成这些任务。无论是从应用开发还是科学研究的角度来看,基于MapReduce编程模型的Hadoop开源系统成为了人们一种更为合理的选择。
MapReduce有三点优势。第一点,MapReduce采用的是无共享大规模集群系统。集群系统具有良好的性价比和可伸缩性,这就为MapReduce成为海量数据的处理平台奠定了基础。第二点,MapReduce结构简单,通俗易懂,很容易就能使用,这也就使得很多数据挖掘算法都采用MapReduce来实现。第三点,可以通过合适的索引技术以及查询算法进行优化,MapReduce可以提供非常好的数据处理能力。
在一个完整的数据处理过程中,首先我们会得到最原始的数据,随后我们再对这些数据进行下一步的处理。而在实际操作中,因为很多数据都涉及到用户的隐私,所以保证数据的安全性是必不可少的。这样我们就需要对数据的某些敏感字段进行加密,然后用加密的字段替换原始的字段,只要知道加密算法,我们就能还原出最原始的数据,所以加密操作是不会影响数据的准确性的。
除了在上述加密过程中涉及到了字段整体替换的功能之外,我们在后期数据处理的时候也会需要这一功能。比如在进行数据可视化的时候,对于某一个字段的内容,我们使用自己设计的id对其进行替换,这样能使得数据处理更加方便,也使得最后数据可视化的时候更加清晰和简洁。由此可以看出字段整体替换功能的应用是广泛且频繁的。
因此,在实际的数据操作中,用户会频繁的提出对数据进行字段整体替换的要求,而这些要求都需要管理或者操作这个数据平台的管理员去实现。由于这些操作具有统一的接口,只是用户操作的数据或者需要替换的字段不一样,而现有的数据平台不能够提供一个便捷的界面或者接口使得用户能够方便地、自行地完成字段替换操作。
发明内容
为了解决能够在数据平台上,方便地、自行地完成字段替换操作,本发明提供了一种基于MapReduce的字段整体替换方法,包括:
将数据表和替换表存储在文件系统中;
对所述数据表中的数据进行映射,形成由数据对组成的字段序列;其中,所述数据对包括键和值;判断所述字段序列中的数据对是否需要替换;若数据对需要替换,则将数据对中的键替换成所述替换表中相应的数据。
所述将数据表和替换表存储在文件系统中的步骤具体包括:根据存储指令将数据表和替换表存储在文件系统的指定位置,并为所述数据表和替换表中的数据添加字段序号;其中,所述替换表中每行数据有两个字段,且用制表符分开。
在对所述数据表中的数据进行映射的步骤之前还包括:通过确定输入的替换需求的合法性来判断是否对字段进行替换;其中,所述替换需求包括:所述替换表的输出路径和输入路径、所述数据表的输入路径及待替换字段序号。
所述通过确定输入的替换需求的合法性来判断是否对字段进行替换的步骤具体包括:先判断输入的替换需求是否为所需的字符串;若替换需求为所需的字符串,则判断所述替换表的输出路径在文件系统中是否存在;若所述替换表的输出路径在文件系统中不存在,则判断所述替换表的输入路径在文件系统中是否存在;若所述替换表的输入路径在文件系统中存在,则判断所述数据表的输入路径在文件系统中是否存在;若所述数据表的输入路径在文件系统中存在,则判断待替换字段序号是否在数据表的字段序号的范围之内;若待替换字段序号在数据表的字段序号的范围之内,则说明替换需求是合法的。
所述对数据表中的数据进行映射的步骤具体包括:根据输入的数据表的输入路径和替换表的输入路径判断数据行在所述数据表中还是在所述替换表中;若所述数据行在数据表中,则将数据行记录作为映射的输入值,然后根据所述待替换字段序号查找到字段中的数据,并作为映射的输出值,将数据行记录的非待替换字段作为映射的输出值;若所述数据行不在数据表中,则说明所述数据行在替换表中,将数据行记录作为映射的输入值,将所述第一个字段和加上标识符的第二个字段一起作为映射的输出值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于领航动力信息系统有限公司,未经领航动力信息系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310101969.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于舞台灯具的光学系统
- 下一篇:可产生均匀亮度的车灯透镜