[发明专利]一种数据挖掘方法及装置在审
申请号: | 201910478937.2 | 申请日: | 2019-06-03 |
公开(公告)号: | CN110188130A | 公开(公告)日: | 2019-08-30 |
发明(设计)人: | 尤涛;冯晓帅;杜承烈;陈进朝;杨骋昊 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 党娟娟;郭永丽 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 概率 数据挖掘 遍历 动态规划法 计算机领域 概率计算 广度优先 计算过程 数据包含 算法 事务 | ||
1.一种数据挖掘方法,其特征在于,包括:
根据不确定数据包含的项集及所述项集的内项,建立初始频繁闭项集结构,所述初始频繁闭项集结构包含的层数不大于最大所述内项对应的数量;
遍历所述初始频繁闭项集结构每一层内包含的所述项集,根据每个所述项集的直接后继,建立基于频繁闭项集的闭关系图;
根据所述项集在相应事务对应的事务概率,通过动态规划确定所述项集的频繁概率;
通过广度优先法遍历所述项集的直接后继,通过容斥定理确定所述项集的频繁非闭概率,根据所述频繁概率,所述频繁非闭概率和概率频繁闭阈值确定所述不确定数据的概率频繁闭项集。
2.如权利要求1所述的方法,其特征在于,根据不确定数据包含的项集及所述项集的内项,建立初始频繁闭项集结构,具体包括:
将所述内项对应的数量按照从小到大的顺序排序,将具有相同数量的所述内项对应的所述项集确定在一层,根据所述项集的层级关系建立所述初始频繁闭项集结构;
将位于所述初始频繁闭项集结构内第一层的所述项集确定为频繁一项集,将位于所述初始频繁闭项集结构内第N层的所述项集确定为频繁N项集;
其中,所述初始频繁闭项集结构内包含的所述项集对应的next标记与flaglist标记均为空,所述next标记用于记录所述项集的直接后继的项集信息,所述flaglist标记用于记录所述项集的直接或间接前驱的项集信息。
3.如权利要求1所述的方法,其特征在于,所述遍历所述初始频繁闭项集结构每一层内包含的所述项集,根据每个所述项集的直接后继,建立基于频繁闭项集的闭关系图,具体包括:
当遍历到位于第N层的频繁N项集时,从第N-1层开始遍历,若所述第N-1层内包含的频繁N-1项集包含于所述频繁N项集,且所述频繁N项集的flaglist标记不包含所述频繁N-1项集时,在所述频繁N项集的flaglist标记内添加所述频繁N-1项集,并在所述频繁N-1项集的next标记添加所述频繁N项集;
当确定所述频繁N-1项集的flaglist标记内包含的频繁N-2项集不包含于所述频繁N项集的flaglist标记内时,将所述频繁N-2项集添加到所述频繁N项集的flaglist标记内。
4.如权利要求3所述的方法,其特征在于,所述通过广度优先法遍历所述项集的直接后继,通过容斥定理确定所述项集的频繁非闭概率,具体包括:
确定所述频繁闭项集的闭关系图内第一层的频繁1项集包含的第一直接后继的项集信息,得到初始域和第一遍历层;
确定所述频繁1项集的第一直接后继对应的每个项集信息所包含的第二直接后继的项集信息,若所述频繁1项集的所述初始域为空,则将第二直接后继的项集信息确定为所述初始域;若所述初始域为非空,则将第二直接后继的项集信息确定为第二域和第二遍历层;
根据容斥定理,奇数遍历层相加和偶数遍历层相减,得到所述频繁1项集的频繁非闭概率;
所述项集频繁非闭概率的容斥定理如下所示:
其中,PrFNC(F)为所述项集X的频繁非闭概率,e1,e2,...,em为项集,Pt(C1...Cm)为频繁闭项集X的频繁非闭概率,Ci表示X的一个事件超集X+ei始终与X一起出现至少min_sup次,Pt(Ci)表示所述X的超集X+ei始终与所述X一起出现至少min_sup次的概率。
5.如权利要求1所述的方法,其特征在于,所述通过动态规划确定所述项集的频繁概率,具体包括:
通过下列公式确定所述项集的频繁概率:
其中,supv(R)为所述项集v的频次分布,表示在前i个记录中所述项集v出现j次的概率,pi为第i个记录存在的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910478937.2/1.html,转载请声明来源钻瓜专利网。