[发明专利]基于MapReduce的大图上距离连接查询方法有效
申请号: | 201210157463.X | 申请日: | 2012-05-18 |
公开(公告)号: | CN102737114A | 公开(公告)日: | 2012-10-17 |
发明(设计)人: | 周家帅;高军;王衎;王腾蛟;杨冬青;唐世渭 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 mapreduce 大图 距离 连接 查询 方法 | ||
1.基于MapReduce的大图上距离连接查询方法,其步骤包括:
1)提取初始化的查询参数:原图、已访问结点、拓展范围和查询结果;
2)在hadoop上对原图进行双向拓展,拓展从源结点集合和目标结点集合开始,每次拓展基于代价模型选择执行方式,采用动态阈值剪枝操作,将新拓展的结点加入已访问结点集合;
3)继续遍历未完成拓展的剩余结点,直到所有满足拓展范围的结点都完成拓展;
4)完成迭代后,记录所述已访问节点集合中目标结点和源结点间路径查询结果,返回查询结果。
2.如权利要求1所述的基于MapReduce的大图上距离连接查询方法,其特征在于,所述动态阀值剪枝操作为:对每一次正向或反向拓展,设定距离连接查询的阈值;在进行拓展时统计已访问结点集合中与源结点或目标结点间最小距离,更新阀值并对所述结点进行剪枝拓展。
3.如权利要求2所述的基于MapReduce的大图上距离连接查询方法,其特征在于,动态阈值的信息存储在拓展范围FStat和BStat集合中。
4.如权利要求1所述的基于MapReduce的大图上距离连接查询方法,其特征在于,在拓展操作时使用Segment索引。
5.如权利要求1所述的基于MapReduce的大图上距离连接查询方法,其特征在于,每次拓展操作基于代价模型选择使用主动拓展或按需拓展的方式进行结点迭代拓展。
6.如权利要求5所述的基于MapReduce的大图上距离连接查询方法,其特征在于,所述代价模型基于Hadoop构建,训练特征参数包括:1)原图自身特性;2)顺序扫描和索引访问的代价比率;3)满足拓展范围的结点数目;4)已访问结点数目。
7.如权利要求5所述的基于MapReduce的大图上距离连接查询方法,其特征在于,所述主动拓展为,对已访问结点和原图同时进行Map操作,得到的结果进行Reduce操作,完成对每个满足条件结点的拓展并将结果输出到新的已访问结点集合中。
8.如权利要求5所述的基于MapReduce的大图上距离连接查询方法,其特征在于,所述按需拓展为,扩展前为原图建立索引MapFile文件,扩展过程中对已访问结点进行Map操作,结果进行Reduce操作,根据MapFile索引获取对应结点的邻接表,完成对每个满足条件结点的拓展并将结果输出到新的已访问结点集合中。
9.如权利要求1所述的基于MapReduce的大图上距离连接查询方法,其特征在于,每进行一次拓展之后,都需要对当前结果进行更新,保证目标结点和源结点间的距离查询值为当前最小。
10.如权利要求1所述的基于MapReduce的大图上距离连接查询方法,其特征在于,原图、已访问结点、拓展范围和查询结果是查询中间参数,储存在hadoop文件系统HDFS中;所述原图G按照邻接表的方式进行存储;所述已访问结点、拓展范围和查询结果按照key->value的形式进行存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210157463.X/1.html,转载请声明来源钻瓜专利网。