[发明专利]一种面向属性图集的频繁近似子图挖掘方法在审
申请号: | 201510306230.5 | 申请日: | 2015-06-08 |
公开(公告)号: | CN104899292A | 公开(公告)日: | 2015-09-09 |
发明(设计)人: | 潘海为;高琳琳;韩启龙;战宇;翟霄;李文博 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 属性 频繁 近似 挖掘 方法 | ||
技术领域
本发明属于图挖掘技术领域,具体涉及一种面向属性图集的频繁近似子图挖掘方法。
背景技术
频繁子图挖掘作为图挖掘中的重要任务,可以发现图中隐含的重要模式,而且挖掘出来的模式可以用于进一步的研究,例如分类、聚类和关联模式挖掘等。图匹配是频繁子图挖掘中的关键步骤,目前存在两类图匹配方法:精确匹配和近似匹配。图精确匹配要求两个图的结构和特征完全相同,虽然图精确匹配在数学上提供了严谨的方法,但是它只适用于有限的问题中。由于现实世界中的对象常被噪声影响,且图建立过程中存在失真现象,例如,属性值出现误差或者顶点和边的缺失等,所以图近似匹配在现实中的应用更为广泛。
依据图近似匹配策略,近似子图挖掘方法主要分为五类:(1)基于图编辑距离:算法SUBDUE、RNGV和MaxAFG探讨一个图潜在的编辑路径,并把最有可能的编辑路径作为候选项;(2)基于-边的子同构:算法Monkey中允许边的缺失和边标号的替换,其中是边差异阈值;(3)基于顶点或者边不相交的子同胚:算法CSMiner发现具有相同拓扑的近似结构;(4)基于不确定图上的子同构:算法MUSE计算每个候选项的期望支持度,根据期望支持度寻找近似结构;(5)基于替换概率:算法gApprox、APGM和VEAM依据顶点或者边的替换矩阵寻找近似结构。在众多图近似匹配方法中,噪音和图失真现象的存在使得具有较强容错能力的图编辑距离倍受青睐。在基于图编辑距离的图近似匹配中,编辑操作的代价函数决定着图结构的匹配过程。算法SUBDUE、RNGV和MaxAFG中的代价函数均不能很好地用于属性图上,且算法SUBDUE和MaxAFG是在单个大图上挖掘频繁近似子图,大图上的频繁子图挖掘和图集上的频繁子图挖掘存在本质不同:首先,支持度的定义不同;其次,子图搜索过程不同。针对以上不足,本发明提出一种面向属性图集的频繁近似子图挖掘方法。
发明内容
本发明的目的是提出一种利用具有较强容错能力的图编辑距离进行图近似匹配,符合现实世界中噪声和图失真普遍存在的现象,从而可以发现更多有意义的重要模式的面向属性图集的频繁近似子图挖掘方法。
本发明的目的是这样实现的:
(1)输入属性图集D、支持度阈值σ、近似度阈值τ和代价函数d;
(2)构造属性图集S:对属性图集D中顶点特征向量集和边特征向量集分别进行聚类,根据簇心特征向量构造一个新的图集S;之后在属性图集D和S上进行频繁近似子图搜索;
(3)挖掘频繁近似顶点:根据属性图集D和S、两个阈值σ和τ、代价函数d,挖掘只包 含一个顶点的频繁近似子图,将频繁近似顶点的三个相关信息加入到集合C,令频繁近似子图集F=C;
(4)子图扩展:对于每个子图P∈C,找到子图P在属性图集S中的扩展边集ExtSet(P,S),对于每条扩展边eS∈ExtSet(P,S),将子图P和边eS连接得到扩展子图P’=P°eS;同时计算扩展子图P’的三个相关信息:子图P’的最小DFS编码Min(P’)、子图P’在图集S中的同构嵌入集Θ(P’,S)和子图P’在图集D中的近似嵌入集O(P’,D);
(5)计算扩展子图P’在属性图集D中的支持度,若supp(P’,D)≥σ,则有F=F∪P’,并重复步骤(4),直至所有子图均被发现或者子图的支持度小于支持度阈值σ;
(6)输出频繁近似子图集F;
所述代价函数d,设<Qi,Qj>是图编辑路径中的中一个编辑操作,其中pk是Qi的第k个特征值,qk是Qj的第k个特征值,d(<Qi,Qj>)表示编辑操作<Qi,Qj>的代价函数,则有:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510306230.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种异构数据源数据关联分析方法
- 下一篇:基于径向布局的多维层次可视化方法