[发明专利]使用基于MapReduce的IVkNN算法进行查询的方法在审
申请号: | 201711358195.7 | 申请日: | 2017-10-19 |
公开(公告)号: | CN108021689A | 公开(公告)日: | 2018-05-11 |
发明(设计)人: | 季长清;汪祖民;秦静;吴锐 | 申请(专利权)人: | 大连大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 毕进 |
地址: | 116622 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 基于 mapreduce ivknn 算法 进行 查询 方法 | ||
本分案申请公开一种使用基于MapReduce的IVkNN算法进行查询的方法,属于云计算、大数据领域,用于解决的问题是:提高现有数据查询方法索引效率,技术要点是:主节点将文件加载到分布式缓存中,Mappers从分布式缓存中读取R
本申请为申请号2017109759745、申请日2017-10-19、发明名称“基于MapReduce与倒排泰森多边形的大规模近邻查询方法”的分案申请。
技术领域
本发明属于云计算、大数据领域,涉及一种在分布式环境下可以有效提高查询效率的MapReduce索引。
背景技术
MapReduce是一种目前流行的基于云平台的编程框架,它可以处理及生成大型数据集,其利用无共享集群来支持数据密集型的应用。处理步骤具体为:在分布式缓存系统中,由MapReduce任务在处理一个键/值对时,是在map函数中生成一组中间键/值对,根据相同的中间键来合并所有的中间值,每个map都独立于其他操作,即所有maps就可以并行执行。MapReduce的一组“reducers”可以执行归约操作,具有相同key的Map操作的输出同时可以归约到同一个reducer。然而单独运行一个归约过程可能会使得效率低下;
MapReduce可用于支持比传统的商业服务器集群更大规模的数据处理,它可以在仅仅几小时内即可处理一个PB数量的数据,使用MapReduce进行数据索引具有较好的应用前景。然而,现有的索引算法由于不能适应MapReduce的并行处理,构建索引的时间耗费不够理想,可扩展性不佳。
发明内容
为了提高现有数据查询方法索引效率,本发明提供如下方案:
一种基于MapReduce与倒排泰森多边形的大规模近邻查询方法,包括如下步骤:
S1.构造基于MapReduce的倒排Voronoi索引;
S2.使用倒排Voronoi索引对数据集R和S进行分区;
S3.使用基于MapReduce的IVKNN进行分布式kNN查询。
构造基于MapReduce的倒排Voronoi索引的步骤如下:
S1.1.d维空间中给定两个数据集R和S,Hadoop进行分片,部分mappers同时并行运行,在MapReduce任务中,使用默认的reducer,在启动map函数之前,使用预聚类算法得到代表点p,并加载到每个map的主存中;
S1.2.在每一个map处理进程中,依次利用TextInputForma来读取输入的分片,TextInputFormat从文件读取数据到Mapper的实例中,分别计算数据集R中的m个对象r与各代表点p之间的距离、数据集S中的n个对象s与代表点p之间的距离,并将距离数据集R中的第i个对象r与数据集S中的第j个对象s
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711358195.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种金属钢管数控的切割装置
- 下一篇:倒排Voronoi索引