[发明专利]一种基于MapReduce云计算模型的树遍历搜索方法在审
申请号: | 201510153681.X | 申请日: | 2015-04-02 |
公开(公告)号: | CN104778235A | 公开(公告)日: | 2015-07-15 |
发明(设计)人: | 陈承收 | 申请(专利权)人: | 浪潮集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mapreduce 计算 模型 遍历 搜索 方法 | ||
技术领域
本发明涉及计算机数据遍历搜索领域,具体地说是一种实用性强、基于MapReduce云计算模型的树遍历搜索方法。
背景技术
随着信息技术的快速发展,使得企业面临的数据量成指数增长,如何加工、处理和展现这么庞大的数据,是当前企业所要考虑的首要问题。基于此,现提出了一种基于MapReduce云计算模型的树遍历搜索方法。该方法通过利用MapReduce云计算模型对数据单元进行遍历搜索,可以快速查询出对我们有用的信息,从而得到我们需要的结果,保证了搜索查询的准确性和及时性,提高工作效率,给企业带来更多的效益。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、基于MapReduce云计算模型的树遍历搜索方法。
一种基于MapReduce云计算模型的树遍历搜索方法,其具体实现过程为:
一、将要遍历的数据源抽象为标记树模型,根据树的深度和广度,用坐标的形式标记起来;
二、对数据进行搜索:对产生的数据标记树进行树的遍历,运用Map-Reduce模型对任务进行处理,分解成很多子任务进行并行执行,每个子任务结果通过一个flag进行标识,将所有子任务结果作逻辑或运算,得到搜索结果;根据树的遍历过程中返回的结果,判断树节点是否相同,进而得到是否有节点重合。
所述标记树模型的坐标表示为(ai,bi),其中ai表示数据源A在树中标记节点坐标,bi表示数据源B在树中的标记节点坐标。
所述步骤二的详细过程为:
1)首先对一个子任务进行遍历:
执行Map过程:将A中某节点调用map函数遍历B每一个节点;然后将B中某节点调用map函数遍历B每一个节点;
执行Reduce过程:根据相同key值,由约定的规则判断是否搜索到结果,然后返回结果;
调用遍历程序,完成遍历;
根据key值规约,判断ai和bi是否有重合;
输入MapReduce-Traversal程序,交由云计算平台执行;
云平台中控制机将MapReduce-Traversal程序分配给有空闲的服务器;
计算机机群先执行Map程序来处理切割过的小块数据,然后由reduce程序进行排序汇整合并;
2)按照上述步骤通过遍历函数递归完成对树其它子任务的遍历过程。
本发明的一种基于MapReduce云计算模型的树遍历搜索方法,具有以下优点:
本发明提出的一种基于MapReduce云计算模型的树遍历搜索方法,利用该技术在并行计算和分布式处理上的优势,可以快速解决超大集群上的海量数据处理任务,并可扩展利用云平台和网络技术,使算法在互联网上的异地计算机上实现任务分布处理,极大提高数据的处理效率,实用性强;基于MapReduce编程模型,能够处理海量数据的遍历搜索任务;运行在计算机集群上,多任务分布执行,互不影响,极大提高了执行效率,易于推广。
附图说明
附图1为标记树坐标方式图。
附图2为本发明的搜索过程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明提供一种基于MapReduce云计算模型的树遍历搜索方法,首先根据不同的数据单元,构建Tree模型;在进行搜索遍历时,对Tree中的数据进行坐标化转化;每个遍历搜索过程的Map-Reduce机制分解执行。
如附图1、图2所示,其具体实现过程为,
将要遍历的数据源抽象为标记树模型,根据树的深度和广度,用坐标的形式标记起来,在树的遍历过程中,根据返回的结果,判断树节点是否相同,进而得到是否有节点重合。
标记树形式如图1所示,其中ai表示数据源A在树中标记节点坐标,bi表示数据源B在树中的标记节点坐标。
在上述步骤中,标记树表示 将某一单元或区域的数据,以tree模型表示其结构,根据tree的深度和广度,用坐标的形式标记数据节点;ai:表示dataA在Tree中标记节点坐标;bi:表示dataB在Tree中的标记节点坐标。
在对数据进行搜索的过程中,首先对产生的数据tree进行或树的遍历,运用Map-Reduce模型对任务进行处理,分解成很多子任务进行并行执行,每个子任务结果通过一个flag进行标识,将所有子任务结果作逻辑或运算,得到搜索结果。
遍历搜索过程的算法过程具体描述如下:
Input: Two DATAs A,B
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮集团有限公司,未经浪潮集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510153681.X/2.html,转载请声明来源钻瓜专利网。