[发明专利]一种基于事务项约束扩展的多层关联规则挖掘方法在审
申请号: | 201610162177.0 | 申请日: | 2016-03-21 |
公开(公告)号: | CN105808766A | 公开(公告)日: | 2016-07-27 |
发明(设计)人: | 马强;张琦;邢玲;袁冬菊;何燕玲 | 申请(专利权)人: | 西南科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 621000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于事务项约束扩展的多层关联规则挖掘方法,通过将原始项目表转换为概念层次树,再通过概念层次树进行基于事务项约束扩展的多层关联规则挖掘,这样能够根据具体数据挖掘应用场景或用户所需要的具体关联信息需求,在具体层次间进行关联信息挖掘,同时挖掘过程中极大减少频繁项集和冗余规则的生成,从而提高整个数据的关联规则挖掘效率,具有很好的扩展性。 | ||
搜索关键词: | 一种 基于 事务 约束 扩展 多层 关联 规则 挖掘 方法 | ||
【主权项】:
一种基于事务项约束扩展的多层关联规则挖掘方法,其特征在于,包括以下步骤:(1)、对概念层次树进行编码预处理(1.1)、建立概念层次树CT:根据原始项目表中的项目建立概念层次树CT,CTij表示概念层次树CT的第i(i=1,2…,n)层的第j(j=1,2,…,m)个节点,其中,n为CT的层数,m为CT第i层的节点数;(1.2)、对概念层次树CT编码:先从概念层次树CT的左端开始,分别对CT每层中的节点按序编号,再对CT中的每个节点按照父节点编号加本节点编号的组合方式得到每个节点的编码号;(1.3)、建立编码事务表:根据编码后的概念层次树CT,用编码号取代原始项目表中对应的事务项,生成编码事务表;(2)、利用预设的事务项约束扩展层次对编码事务表进行约束扩展设置约束扩展层次k,2≤k≤n;设编码事务表中所有事务项集合为H={h1,h2,…,hm},事务集集合为T={T1,T2,…,Tn},其中,每个事务Ti是一个非空项集,扫描事务集T,将每条事务中的每个事务项从CT中找出该事务项的前k‑1个父节点的编码号,并加入到该条事务中,最后删除事务中重复的事务项,约束扩展后的事务集T';(3)、对事务项约束扩展后的事务集T'进行基于FP‑Growth算法的挖掘(3.1)、设置最小支持度;(3.2)、扫描事务集T',计算每个事务项的支持度计数,将支持度计数大于最小支持度的事务项存入到频繁项集L中;(3.3)、将频繁项集L中的事务项按支持度计数的递减序排序,得到频繁项集L';(3.4)、第二次扫描事务事务集T',构造频繁模式增长树FP‑Tree;(3.4.1)、创建树的根节点,根节点为空;(3.4.2)、创建树的子结点;1)、扫描事务集T',从T'的每条事物中找出与L'对应的事务项,再对每个事务项都按L'中的次序处进行排序,得到事务集T”;2)、利用事务集T”建树;对事务集T”的每一条事务创建一个分枝,每个事务项为分枝上一个结点;在为每二条以后的事务创建分枝时,需对当前事务与前面已创建分枝的事务存在共同前缀的每个结点的计数加1,同时为该共同前缀之后的事务项创建新的结点和链接;3)、对树中的每个结点增加域isVisited和conditionMemory,其中,isVisited为布尔类型,初始isVisited为“假”,初始conditionMemory为空;4)、利用频繁项集L'中的事务项创建一个项头表,使每个事务项通过一个结点链指向它在树中的位置,同一结点链上的各个结点相互称为同名结点;(3.5)、对(3.4)步骤构建的FP‑Tree进行频繁项集挖掘:(3.5.1)、从项头表的最后一项开始,沿结点链找到该事务项在FP‑Tree中出现的位置F;(3.5.2)、读取位置F处的结点的isVisited值,如果isVisited值为“假”,表明该结点未被遍历过,则遍历从该结点起到根结点止的各结点,并将各结点的前缀结点存入到各自的conditionMemory中,再将各结点的isVisited值设为“真”;如果isVisited值为“真”,表明该结点被遍历过,则沿结点链查找该结点在树中的下一同名结点;(3.5.3)、对各同名结点按照步骤(3.5.2)所述方法,判断各同名结点的isVisited值,直到处理完最后一个同名结点为止;(3.5.4)、将各同名结点的conditionMemory中的前缀结点组成各自结点的一条子事务,再由各同名结点的子事务组成子数据库,对该子数据库按照步骤(3.2)、(3.3)、(3.4)所述方法构建条件FP‑Tree;(3.5.5)、判断条件FP‑Tree是否存在多条分枝,如果条件FP‑Tree仅存在一条分枝,则将该分枝上的所有事务项加上该事务项本身作为一个频繁项集入frequencySets中,否则对该条件FP‑Tree按照步骤(3.5)所述方法进行处理;(3.6)、待项头表的最后一项处理完成后,再按照步骤(3.5)依次处理项头表中剩余的事务项,完成频繁项集的挖掘过程;(4)、设置风险度阈值,验证事务项约束扩展层次k值选取的可行性(4.1)、设基于全部层次n层扩展挖掘的关联规则数记为Rn,基于事务项约束扩展层扩展挖掘的关联规则数记为Rk,则风险度risk(k)为:(4.2)、设置风险极大值max_risk,如果事务约束扩展k层扩展时的风险度risk(k)小于max_risk,则事务约束扩展层次k值设置合理,挖掘出的关联规则可用;否则事务约束扩展层次k值设置不合理,则重新选择k值按照步骤(1)‑(3)进行关联归则挖掘,再按步骤(4.1)中的风险度公式计算风险度,验证k值选择的合理性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南科技大学,未经西南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610162177.0/,转载请声明来源钻瓜专利网。