[发明专利]一种可扩展的面向关联的流式图数据划分方法有效
申请号: | 201510242491.5 | 申请日: | 2015-05-13 |
公开(公告)号: | CN104820705B | 公开(公告)日: | 2017-11-10 |
发明(设计)人: | 袁平鹏;金海;郝赟;罗毅 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 华中科技大学专利中心42201 | 代理人: | 赵伟 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 扩展 面向 关联 流式图 数据 划分 方法 | ||
1.一种可扩展的面向关联的流式图数据划分方法,其特征在于,具体包括以下步骤:
(1)以边为单位对流式图数据进行预处理:根据节点到达顺序对节点依次进行编号;将节点的编号作为节点ID;
其中,流式图数据包括源节点、目的节点和边上的权值;源节点和目的节点记录在同一哈希字典文件中;
(2)将边加入先进先出队列;其中,边包括源节点ID、目的节点ID以及边上的权值;
(3)将先进先出队列中的边放入滑动窗口,直到进入到滑动窗口内的边数达到预设阈值;获取与边对应的各源节点和目的节点的入度值,以及带权图中各边对应权值的比例,并获取各节点的PageRank值;其中,阈值是指滑动窗口所能容纳的边数的最大值;
(4)获取由滑动窗口内各边构成的流式图数据的子图,并获取所述子图的起始节点集合;获取子图内每个节点对应的起始节点的集合S;采用关联计算的方法处理所述集合S,获取子图内各节点间的关联值Assc以及各节点的关联集合A;
(5)采用近邻传播聚类算法对滑动窗口内所有节点进行聚类处理,获取质心;根据质心的PageRank值将所述质心从小到大排序;
(6)采用关联聚类方法对滑动窗口内所有的节点进行划分,并多次迭代获取多个划分结果;根据步骤(4)获得的各节点的起始节点集合将各划分结果扩充为完整的节点集合;将规模小于阈值的划分结果对应的各边留于滑动窗口;
(7)将规模达到或超过阈值的划分结果采用数据分发方法分发到存储节点:若所有存储节点为空,则将划分结果按其规模从大到小对应存储节点的存储容量从小到大放置;
若存储节点非空,则根据划分结果的质心分发,若划分结果的质心只存在于一个存储节点索引,则分发至该索引对应的存储节点,若划分结果的质心不存在于任何存储节点索引或存在于多个存储节点索引,则将划分结果分发至当前剩余容量最大的存储节点。
2.如权利要求1所述的流式图数据划分方法,其特征在于,所述步骤(3)具体如下:
(3-1)将进入到当前滑动窗口内的边数与预设阈值进行比较,判断滑动窗口是否已满,若是,则进入步骤(3-7);若否,则进入步骤(3-2);
(3-2)根据队列里是否存在边,判断顺序队列是否为空,若是,则进入步骤(3-3);若否,则进入步骤(3-4);
(3-3)等待M秒后进入步骤(3-2);其中,M根据流式图数据到达的速度自定义,流式图数据到达越快,M取值越小;
(3-4)判断队列中边数是否大于等于滑动窗口中剩余可容纳边数,若是,则进入步骤(3-5);若否,则进入步骤(3-6);
(3-5)将队列中的边填入滑动窗口,直到滑动窗口内的边数达到滑动窗口的阈值,进入步骤(3-7);
(3-6)将队列中的边全部填入滑动窗口,进入步骤(3-7);
(3-7)获取各节点在当前滑动窗口内的局部入度值,并更新各节点的全局入度值;
(3-8)根据所述全局入度值获取各节点PageRank值的第一组成部分;根据边权值占比获取各节点PageRank值的第二组成部分;
采用混合近似PageRank方法,结合PageRank值的第一组成部分与PageRank值的第二组成部分,获取各节点的PageRank值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510242491.5/1.html,转载请声明来源钻瓜专利网。