[发明专利]一种基于高低位样本平均域值的频繁项集数据挖掘方法在审
申请号: | 201810147732.1 | 申请日: | 2018-02-13 |
公开(公告)号: | CN108446328A | 公开(公告)日: | 2018-08-24 |
发明(设计)人: | 柴明亮;高冰;贾吉祥;郭庆涛;邹焕;朱晓雷;彭春霖;常桂华;唐雪峰;黄玉平 | 申请(专利权)人: | 鞍钢股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 鞍山嘉讯科技专利事务所 21224 | 代理人: | 张群 |
地址: | 114000 *** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 支持度 低位 局部样本 频繁项集 数据挖掘 高低位 项集支持度 算法应用 剔除 制定 | ||
1.一种基于高低位样本平均域值的频繁项集数据挖掘方法,其特征在于,包括以下步骤:
步骤一、将每个样本按照支持度从高到低排列,生成每个样本高位项集表和低位项集表,所述的高位项集为按照支持度从高到低依次排列,前三位为高位的项集;所述的低位项集为按照支持度从高到低依次排列,后三位为低位的项集;
步骤二、平均支持度计算;计算每个局部样本一项集支持度,每个样本的高位项集平均支持度GW1i,i代表样本序号;每个样本的低位项集平均支持度DW1j,j代表样本序号;
步骤三、局部样本包含;如果出现GW1i>=GW1j且DW1i<=DW1j,i、j为样本序号,则认定样本则剔除被包含样本Sj;
步骤四、总体数据样本频繁一项集生成;
步骤五、总体数据样本频繁K项集生成。
2.根据权利要求1所述的一种基于高低位样本平均域值的频繁项集数据挖掘方法,其特征在于,所述的步骤四具体为:重新组合数据样本,根据总体数据样本计算候选一项集C1的支持度及平均支持度ZS1确定频繁一项集L1,L1数量计作M1。
3.根据权利要求1所述的一种基于高低位样本平均域值的频繁项集数据挖掘方法,其特征在于,所述的步骤五具体为:重新组合数据样本,第k步,根据k-1步频繁的k-1项集Lk-1按照Apriori_gen产生后选的k项集Ck集,根据总体数据样本,计算候选一项集Ck的支持度及平均支持度ZSk确定频繁一项集Lk,Lk数量计作Mk。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鞍钢股份有限公司,未经鞍钢股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810147732.1/1.html,转载请声明来源钻瓜专利网。