[发明专利]一种基于图摘要的图模式挖掘方法在审
申请号: | 201810786032.7 | 申请日: | 2018-07-17 |
公开(公告)号: | CN109101570A | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 何洁月;王鹤 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 杜静静 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模式挖掘 算法 候选集合 输入图 挖掘结果 原始图 支持度 拆解 筛选 引入 | ||
本发明公开一种基于图摘要的图模式挖掘方法PDDGS算法,依次包括以下步骤:步骤1:给定输入图G和支持度S,使用RoG算法将输入图G进行摘要,得到摘要图Gs;步骤2:根据步骤1得到的摘要图G是,运用GraphZip算法进行图模式挖掘,产生候选集合;步骤3:对候选集合进行筛选,生成挖掘结果。通过引入图摘要阶段,将原始图进行拆解、划分,大大提高了图模式挖掘的效率。因此本发明具有较高的使用价值。
技术领域
本发明涉及一种图摘要方法和图模式挖掘方法,属于图摘要算法与图模式挖掘算法技术领域。
背景技术
近年来,图结构的数据在网络、社会网络、社交网络和生物网络等领域中被大量的收集和分析。在所有的上述的问题中,都有一个共同的问题——对具有数百万甚至数亿节点和边的图进行分析。一方面,用通常的方法来处理如此庞大且复杂的数据,来获取其中的信息是十分困难的,而且这些数据还在以指数级继续增长。另一方面,设计可以拓展到大型图的图挖掘算法本来就是一件极具挑战性的工作。
图摘要算法是一个可以解决上述问题的算法。图摘要算法的目的是根据原始图去构造一个简单的替代,这个替代也是图,但是规模远小于原始图。直观的来看,图摘要问题是把图进行高层次的抽象。在摘要图中,每一个节点代表一个输入图的节点集合,每条边代表两个节点集合之间所有的连接。
关联规则中的模式挖掘是数据挖掘的一个重要的分支,而其中频繁子图挖掘算法通常产生大量的甚至指数级数量的频繁子图,严重的影响了挖掘结果的可用性。使用图摘要的方法可以有效的解决上述的问题。图摘要的方法对图进行摘要,然后对摘要后的摘要图进行图模式挖掘,可以有效的避免产生过多的输出图,而且由于图摘要的特性,它的时间和空间复杂度相对其他图模式挖掘算法要小很多。因此,将图摘要算法应用到图模式挖掘算法中具有较高的应用价值。
发明内容
本发明的目的在于解决现有图模式挖掘算法对于大型图处理的时间复杂度较高的问题。
为了解决上述技术问题,本发明的技术方案如下:本发明所述的基于图摘要的图模式挖掘算法,对于输入图G,依次包括以下顺序执行的步骤:
步骤1、对于节点集合V={v1,v2,…,vn},依次计算每个节点的密度ρ,将节点和节点密度保存在集合F中。密度ρ的计算方法如下:
ρ=ρ1+αρ2
其中ρ1、ρ2、α分别为一步长密度、二步长密度和系数;
步骤2、对集合F按照密度ρ由大到小进行排序;
步骤3、每次从F中的取一个节点v,寻找它的所有2步长节点u,依次根据重构误差公式C计算v和2步长节点的重构误差C;重构误差C公式如下:
其中cu、cv分别是两个节点的相临节点,cw是两个节点集u、v相邻的公共节点数。
步骤4、选择重构误差C≥θ且最大的节点,与选定的节点v进行合并,更新F,转至步骤3;
步骤5、如果所有2步长节点的重构误差均不满足C≥θ,则将节点移出F集合,若移出后集合F为空,则结束摘要阶段,保存摘要阶段结果;
步骤6、将摘要阶段生成的每一个子图,作为一个批次输入。初始化一个具有单边的字典P,P中存储输入的子图的每一条边;
步骤7、对于下一个输入的图,如果边e出现过,则对其进行扩增1条边,这条边需要时之前出现过的边;
步骤8、对于于每一个模式,计算每一个模式的H值,进行排序,取前S个模式。H计算方法如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810786032.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于软件的发布系统及方法
- 下一篇:ETL设计过程的处理方法、装置和设备