[发明专利]高维向量空间中大规模图约束连接路径查询算法在审

专利信息
申请号: 201711011721.2 申请日: 2017-10-26
公开(公告)号: CN107832363A 公开(公告)日: 2018-03-23
发明(设计)人: 丁琳琳;宋宝燕;王俊陆;单晓欢;陈博强;张师文 申请(专利权)人: 辽宁大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 沈阳杰克知识产权代理有限公司21207 代理人: 罗莹
地址: 110136 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 向量 空间 大规模 约束 连接 路径 查询 算法
【说明书】:

技术领域

发明属于大数据领域,特别涉及一种向量空间大规模图数据集的处理方法设计,具体涉及一种高维向量空间中大规模图约束连接路径查询算法设计。

背景技术

近年来,随着大数据、云计算等新型服务的不断发展,与空间位置有关的应用逐渐增多,空间图数据规模正以前所未有的速度增长和累积,如何在高维空间图数据集中找到满足用户需求的最优路径结果集,是大规模图领域的研究热点。Map-Reduce框架为大规模数据批量处理提供有效手段。在Map阶段,可根据高维向量空间数据集的自相似性,逐步缩小关系集的大小,保留全部的正确备选项,在Reduce阶段,进行最终结果路径筛选,提高解决基于位置连接问题的效率,既能保证结果的准确性,又有较好的可伸缩性,最大程度的缩减计算代价和文本复制成本。

现有约束连接路径查询算法主要存在两方面的问题。一是很多算法通常设计在一个计算节点上,适用于数据规模较小、维度较低的数据集处理,如PhiDJ算法等,但由于数据的海量及高维的特性,这些算法并行性和可伸缩性较低,难以处理百万甚至数亿级别的大数据集,在数据整理和分析时,算法高效性不足;二是多数约束连接算法都是基于某种高效的空间索引进行连接,如MR-DSJ算法等;当向量空间维度增大时,这些算法随着维度的不断增大,连接操作需要的计算代价也越高,计算量呈指数增长,算法的处理能力越来越弱,得出结果路径集的时间越来越长。因此,设计一种高维向量空间中大规模图约束连接路径查询算法是非常必要的。

发明内容

为了解决在大规模图数据集在高维空间中的分析操作需要较高计算代价的问题,本发明提供一种算法计算复杂度低,执行能力高的高维向量空间中大规模图约束连接路径查询算法。

本发明目的是通过下述技术方案实现的:高维向量空间中大规模图约束连接路径查询算法,即Constraint Connection Process based on Vector Space,简称CCPBV算法,其特征在于,该算法引入Map-Reduce框架,在高维空间上的数据处理过程中具体包括以下步骤:

1)投影筛选:在高维数据空间中,随机挑选k个节点,将向量空间中的节点直接投影到某一维度对不具有代表性的节点进行删选;

2)降维删选:在高维空间上进行降维删选;

3)节点删选:在降维后的低维空间中进行数据节点的删选操作;

4)节点子集高维空间整合,输出约束连接路径。

所述步骤1)中所述的投影删选,具体包括如下步骤:

(1-1)选定投影的维度:采用概率选取,将向量空间分为若干单元格,在整个向量空间上随机选取n个节点,并在节点所在的邻近单元格内,随机选取一个备选节点,计算这n个节点到备选节点的投影距离,确定距离值最大的维度,将这n个节点距离值最大的维度进行自然归纳总结,最终选取次数出现最多的那一维度为选定维度;

(1-2)对节点进行删选:将空间中的节点投影到向量空间某一维度上,若在这一维度上该节点的投影距离已经超过了题设给定的约束距离ε,则这一节点可以直接删除不再进行具体的考虑。

所述步骤2)中所述的降维删选,具体包括如下步骤:

(2-1)为维度赋予特征码:根据节点在每一维度上的距离表现来进行排序,再为维度赋予特征码;在赋予特征码阶段,在高维空间中,随机找到n个节点,计算每个节点在每一维度上投影后的距离差D1、D2、……、Dm,选取每个节点投影距离最大的k个维度,统计每个维度被选取的次数,为选取次数较多的维度赋予一个较小的特征码;

(2-2)冒泡排序降维算法:在面对高维空间数据向量分布极不均匀的情况时,应用冒泡排序的思想进行降维策略的改进;提取步骤(2-1)中进行排序后的特征码,首先提取特征码最小的两个维度,由这两个维度组成一个新的低维空间;

(2-3)属性分类降维算法:若高维空间中的数据维度代表的是客观事物的属性,并且这些属性是可以进行分类的,则可人为的将同一个属性划分为同一个低维空间,以此得到多个维度数不固定,具有一定的随机性的低维空间。

所述步骤3)中在低维空间中执行数据节点的删选操作,按照如下步骤进行:

(3-1)冒泡排序降维下的低维空间执行CCPBV-Map阶段:由步骤(2-2)可得由特征码最小的两个维度组成的二维空间,在这个二维空间上执行CCPBV算法Map阶段的删选,可以看做是第一步的删选,Map阶段具体操作如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁大学,未经辽宁大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711011721.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top