[发明专利]一种分布式环境下图模式关联规则挖掘方法有效
申请号: | 201810448459.6 | 申请日: | 2018-05-11 |
公开(公告)号: | CN108595711B | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 王欣;徐杨;贾建民 | 申请(专利权)人: | 西南石油大学;成都华数天成科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/901;G06Q50/00 |
代理公司: | 成都信博专利代理有限责任公司 51200 | 代理人: | 舒启龙 |
地址: | 610599 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 环境 下图 模式 关联 规则 挖掘 方法 | ||
1.一种分布式环境下图模式关联规则挖掘方法,其特征在于,包括以下步骤:
S1:构建分布式环境下编码树:
S11:建立由一个中心站点和多个分区站点组成的支持半双工通信和多线程计算的分布式计算框架,并根据分布式计算框架建立各站点之间的路由表;在构建分布式环境下编码树的过程中,将每一轮生长结果广播至所有分区进行挖掘,挖掘结果反馈至中心;中心汇总统计后去除不满足支持度阈值的结构,对满足支持度阈值的结构,继续进行迭代生长,直至所有频繁单边结构迭代完成,输出编码树;同时,分区统计结果将发送至中心进行汇总,最终确定频繁边集合;
S12:设定挖掘支持度及置信度阈值;支持度阈值将作用于频繁单边统计及频繁结构挖掘,置信度阈值将作用于图关联规则产生;
S13:全局频繁单边统计;
S14:全局增量频繁模式挖掘;
S15:依据在增量频繁模式的挖掘过程中所维护的模式生长过程,从单边频繁模式开始,自上而下的生长出其“孩子”节点,直至该单边频繁模式的最大频繁模式,构建编码树;
S2:生成基于编码树的图模式关联规则:
S21:确定最大频繁模式集合,即编码树叶子节点集合;
S22:从编码树的叶子节点开始,对编码树进行逆向广度优先搜索;
S23:对于搜索访问到的节点,建立图模式关联规则;
S24:对关联规则进行置信度检验,若满足置信度检验,则是一个有效的图模式关联规则。
2.根据权利要求1所述的分布式环境下图模式关联规则挖掘方法,其特征在于,所述分布式计算框架中,单一大图结构G被存储在多个分区站点,每个分区站点Wi存储对应站点的图数据以及本地站点的唯一标识符Fi;每个节点都有所属分区标记T与该节点所属分区的唯一标识Fi对应,对于跨越了分区的边e(v,vvritual)通过vvritual所含有的分区标记T,在路由表中查询到对应的分区路由信息,以完成分区之间的数据交互;其中v表示该节点属于本地分区,即T=Fi,vvritual表示该节点不属于本地站点,即T≠Fi。
3.根据权利要求1所述的分布式环境下图模式关联规则挖掘方法,其特征在于,所述S13具体包括:
S131:中心站点根据路由表向所有分区站点广播“单边统计开始”标志;
S132:分区站点收到“单边统计开始”标志后,进行本地边统计;对于跨分区边上不属于本分区的节点不予以计数;统计结束后,向中心站点回传统计结果;
S123:中心站点收到所有分区的统计结果后,进行汇总,且根据设定的支持度阈值筛选出频繁单边,组成频繁单边模式集合,且将频繁单边模式集合广播至所有分区站点;
S134:分区站点根据该频繁单边模式集合对本地图结构进行边修剪,删除不属于频繁边模式集合中的边信息;修剪完成后,向中心反馈“边修剪完成”标志;
S135:中心站点收到所有站点反馈的“边修剪完成”标志后,启动增量频繁模式挖掘。
4.根据权利要求1所述的分布式环境下图模式关联规则挖掘方法,其特征在于,所述S14具体包括:
S141:中心站点从频繁边模式集合中选择一条频繁边模式且构建为树结构T1;
S142:中心站点将T1生长一个不带标签的虚拟节点或生成一条回环边扩展出树结构T2;
S143:中心站点将树结构T1与T2转换为图结构G1,G2,且将G1,G2广播至所有分区站点;
S144:各分区站点收到图结构G1与G2以后,根据图结构G1从本地筛选出起始扩展集合,且根据起始扩展集合扩展出所有满足图结构G2的子图集合;对于含有跨分区节点的子图,将该子图发送至对应分区;
S145:分区站点完成本地扩展任务以后向中心发送本轮扩展的结束标志;
S146:中心站点收到所有分区的扩展结束标志后,广播允许回传的标志至所有分区站点;
S147:分区站点收到中心的允许回传标志后,开始回传本地本轮的扩展结果子图统计集合给中心站点;
S148:中心站点对所有分区的回传集合进行统计,筛选出满足支持度阈值的子图结构;若有子图满足设定的支持度阈值,则将其标记为T1的“孩子”,且将其转换为树结构作为S142的T1递归调用,若无子图满足设定的支持度阈值,则返回上一轮迭代,直至该条频繁边的迭代结束为止;
S149:若该频繁边的迭代扩展结束,则中心站点从频繁单边模式集合从选择下一条频繁单边模式进行扩展,即回到步骤S141;
S1410:若所有频繁边模式迭代完成,则频繁子图挖掘结束,输出频繁模式编码树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南石油大学;成都华数天成科技有限公司,未经西南石油大学;成都华数天成科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810448459.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快速的海量图片去重方法
- 下一篇:对象特征参数的处理方法、装置和电子设备