[发明专利]一种单图中近似频繁图挖掘的方法、装置、设备、介质和系统有效
申请号: | 201810426034.5 | 申请日: | 2018-05-07 |
公开(公告)号: | CN108595686B | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 林欣;窦建凯;吴永成 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62 |
代理公司: | 上海华诚知识产权代理有限公司 31300 | 代理人: | 徐颖聪 |
地址: | 200333 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 单图中 近似 频繁 挖掘 方法 装置 设备 介质 系统 | ||
本发明涉及图数据挖掘及图匹配领域,特别涉及一种单图中近似频繁图挖掘的方法,方法包括:根据给定的单图的大小、给定的相似度和给定的频繁程度,计算单图的频繁子图的大小上限;根据频繁子图的大小上限,遍历单图,搜索单图的所有子图;对单图的每个子图,搜索子图的所有相似子图;对子图的每个相似子图,在单图中进行匹配,搜索相似子图的所有匹配图;将子图的所有相似子图的匹配图组成匹配图集合,计算匹配图集合中最大独立集的匹配图的数量;比较最大独立集的匹配图的数量和频繁程度,如果最大独立集的匹配图的数量大于等于频繁程度,输出子图。本发明还涉及一种单图中近似频繁图挖掘的装置、设备、介质和系统。
技术领域
本发明涉及图数据挖掘(graph data mining)及图匹配(graph match)领域,特别涉及一种单图中近似频繁图挖掘的方法、装置、设备、介质和系统。
背景技术
在现代社会中,数据成为了在任何领域都十分重要的资源,从科学研究,到经济学,甚至是社会学。随着社会发展,数据也变得越来越复杂,使得挖掘隐藏模式和提取有用信息变得十分重要。然而,数据挖掘一直以来都是一个困难的问题,尤其是当数据是图数据时。图数据由于保存数据之间的关系的能力,成为了一种强力的建模工具,常用于生物、化学、网络分析等领域。频繁图挖掘就是图数据挖掘中的一个重要问题,其给定一个图或图集合,以及频繁程度下限,在给定图或图集合中,挖掘所有出现次数超出频繁程度下限的子图。频繁图挖掘的主要应用在于有效结构信息提取,例如挖掘网络连接图中的常见网络连接模型,可以更有效地布局网络,提高网络利用效率,或发现网络中的常见问题,从而提出有效的解决方案;又例如挖掘蛋白质结构中的常见模型,从而可以通过常见模型的出现次数及种类,更好地分辨未知的蛋白质种类。
目前频繁图挖掘领域已经有了许多研究,其中主要分为两类,包括准确频繁图挖掘和近似频繁图挖掘。其中准确频繁图挖掘指的是,当评价一个子图是不是一个频繁图时,只统计与该子图完全一致的出现的次数。近似频繁子图挖掘指的是,在统计子图的频繁程度时,不仅统计与该子图完全一致的出现,同时统计与该子图相似度超出给定值,或区别度小于给定值的其他子图的出现。在衡量一个挖掘方法的优劣时,主要比较方法的运行时间以及运行结果中频繁子图的数量。如Marisol Flores Garrido等人提出了一种近似频繁子图挖掘的方法,利用扩展并存储的方式加快搜索过程,可以在104秒内找到5000个以上的频繁子图。
现有的解决方法中,关于子图的区别程度大部分都利用图的编辑距离(GED),即对两个给定的图,其编辑距离为对其中一个图进行修改,使之成为另一个图的修改次数,此处的修改包含点或边的标签修改、点或边的删除、点或边的插入。但现有的解决方法中,图的区别程度都被定为一个确定的值(此处称为绝对值),即无论当前子图多大,其相似子图与当前子图的编辑距离都不会超过给定的绝对值,因此不够灵活。在实际应用中,更多的是比较两个子图的编辑距离的相对值,即比较两个子图之间的编辑距离与子图大小的比例,以此来判定两个子图是否相似。现有的解决方法无法有效地解决利用相对值判断子图相似度时的近似频繁子图挖掘问题。
发明内容
针对现有技术的不足,本发明提供一种单图中近似频繁图挖掘的方法、装置、设备、介质和系统,利用编辑距离的相对值,根据当前判断是否是频繁子图的子图大小,动态地修改可容忍的编辑距离的范围,使得问题结果最符合实际情况,并且通过量化最优解的判定,以及对所有可能解用剪枝法进行计算,能够较好地解决近似频繁子图挖掘问题。
本发明的实施方式公开了一种单图中近似频繁图挖掘的方法,所述方法包括:
根据给定的单图的大小、给定的相似度和给定的频繁程度,计算所述单图的频繁子图的大小上限,所述频繁子图的大小上限为其中,|G|为所述单图的大小,s为所述相似度,f为所述频繁程度;
根据所述频繁子图的大小上限,遍历所述单图,搜索所述单图的所有子图,所述子图的大小小于等于所述频繁子图的大小上限;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810426034.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法及装置
- 下一篇:用水量异常检测方法和数据库服务器