[发明专利]一种可扩展的面向关联的流式图数据划分方法有效
申请号: | 201510242491.5 | 申请日: | 2015-05-13 |
公开(公告)号: | CN104820705B | 公开(公告)日: | 2017-11-10 |
发明(设计)人: | 袁平鹏;金海;郝赟;罗毅 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 华中科技大学专利中心42201 | 代理人: | 赵伟 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种可扩展的面向关联的流式图数据划分方法,包括以下步骤(1)对图数据进行预处理,将节点转化为节点ID;(2)将预处理后以ID形式存在的各边加入FIFO,等待进入滑动窗口处理;(3)补全滑动窗口,根据混合近似PageRank方法计算各节点的PageRank值;(4)追踪当前由滑动窗口内各边构成的子图中每个节点对应的起始节点的集合,获取各节点的关联值;(5)对窗口内所有节点采用近邻传播聚类算法,获得若干质心以及对应的簇;(6)经过关联聚类方法的多次迭代得到大小不一的多个划分结果,将规模小于阈值的划分结果留于滑动窗口;(7)对规模达到或超过阈值的划分结果采用数据分发方法发至合适的存储节点;完成图数据划分;相对于现有技术,本发明提出的方法提具有更高的划分质量。 | ||
搜索关键词: | 一种 扩展 面向 关联 流式图 数据 划分 方法 | ||
【主权项】:
一种可扩展的面向关联的流式图数据划分方法,其特征在于,具体包括以下步骤:(1)以边为单位对流式图数据进行预处理:根据节点到达顺序对节点依次进行编号;将节点的编号作为节点ID;其中,流式图数据包括源节点、目的节点和边上的权值;源节点和目的节点记录在同一哈希字典文件中;(2)将边加入先进先出队列;其中,边包括源节点ID、目的节点ID以及边上的权值;(3)将先进先出队列中的边放入滑动窗口,直到进入到滑动窗口内的边数达到预设阈值;获取与边对应的各源节点和目的节点的入度值,以及带权图中各边对应权值的比例,并获取各节点的PageRank值;其中,阈值是指滑动窗口所能容纳的边数的最大值;(4)获取由滑动窗口内各边构成的流式图数据的子图,并获取所述子图的起始节点集合;获取子图内每个节点对应的起始节点的集合S;采用关联计算的方法处理所述集合S,获取子图内各节点间的关联值Assc以及各节点的关联集合A;(5)采用近邻传播聚类算法对滑动窗口内所有节点进行聚类处理,获取质心;根据质心的PageRank值将所述质心从小到大排序;(6)采用关联聚类方法对滑动窗口内所有的节点进行划分,并多次迭代获取多个划分结果;根据步骤(4)获得的各节点的起始节点集合将各划分结果扩充为完整的节点集合;将规模小于阈值的划分结果对应的各边留于滑动窗口;(7)将规模达到或超过阈值的划分结果采用数据分发方法分发到存储节点:若所有存储节点为空,则将划分结果按其规模从大到小对应存储节点的存储容量从小到大放置;若存储节点非空,则根据划分结果的质心分发,若划分结果的质心只存在于一个存储节点索引,则分发至该索引对应的存储节点,若划分结果的质心不存在于任何存储节点索引或存在于多个存储节点索引,则将划分结果分发至当前剩余容量最大的存储节点。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510242491.5/,转载请声明来源钻瓜专利网。