[发明专利]一种基于改进Apriori算法的雷电活动数据统计方法无效
申请号: | 201310480978.8 | 申请日: | 2013-12-13 |
公开(公告)号: | CN103593400A | 公开(公告)日: | 2014-02-19 |
发明(设计)人: | 王卫民;李婧;雷欣;田社教;高莹 | 申请(专利权)人: | 陕西省气象局 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F19/00 |
代理公司: | 西安亿诺专利代理有限公司 61220 | 代理人: | 康凯 |
地址: | 710000 陕西省西安*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 apriori 算法 雷电 活动 数据 统计 方法 | ||
1.一种基于改进Apriori算法的雷电活动数据统计方法,其特征在于,包括以下步骤:
1)、计算加权支持度与加权置信度:为每个项目赋予[0,1]之间一个非负实数作为权值,以体现该项目的重要度,并根据该权值计算各项集的权重,进而推出项集的加权支持度与加权置信度,所述支持度与置信度定义是:项目集合I={ i1, i2, …, im}是由m个不同的项组成,交易数据库D中每一笔交易都是I的一个子集,关联规则的形式为X =>Y,其中X∈I,Y∈I,且X∩Y=,X的支持度sup(XUY)为XUY在交易数据库中出现的概率,X的信任度conf( XUY)为在某交易中包含X前提下同对也包含Y的概率.也就是说,关联规则X =>Y的支持度为数据库中包含XUY的交易数与总交易数之比;关联规则的信任度为数据库中包含XUY的交易数与包含X的交易数之比;
2)、垂直位矢量格式转换:将原水平数据格式{事务标志:事务项集}转化为垂直数据格式{项:事务集},然后扫描数据库一次,计算出符合加权支持度与加权置信度的频繁项,并设置它们相应的位矢量;
3)、频繁二项图生成:根据频繁项计算出符合关联规则的频繁2项集,以各个满足频繁2项集的项目作为节点,绘制出表示各个项目之间关系的有向图;
4)候选项集挖掘:通过对频繁2项图的深度优先遍历,找到该图的最长路径,即为最长频繁项集,继而根据任何强项集的子集必定是强项集的性质,找出所有频繁集。
2.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法,其特征在,所述步骤2)的具体过程是:如果该事务中存在对应的项免则设置对应项为1,否则设置对应项为0,当检查完所有事务集合每个项对应一个二进制位串,然后按照支持数从高到低排序将数据库中的项目映射到位图。
3.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法,其特征在,所述步骤3)的具体过程是:将得到的位图中1出现次数最多的节点放在最上层,若某两项在一次事务中同时出现,并且出现的次数满足最小支持度要求,大于或等于最小支持度,则在有向图中这两个节点之间画一条边,边上用二进制字符串表示,二进制字符串通过两个节点求与运算得到,其中串中1的个数表示这两个节点同时出现的次数。
4.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法,其特征在,加权支持度与加权置信度的具体计算过程是:
设I={ i1, i2, …, im},对应i的权值向量W={ w1, w2, …, wm },第 i个事务ti是I的一个子集,ti中第j个项目(记作ti [ij])都有一个权值w,
这样每一个项目都与W中的一个值对应起来,项集事务权值是一个数据库中项目集中各项目的权值汇总,项目集X在事务ti中的项目权值计算为:
加权支持度是事务数据库中包含该项目的事务项集权值的汇总:
其中NX是X在数据库中出现的计数;n是总记录数;
加权置信度是事务数据库中满足X∪Y 的加权支持度与包含X的加权支持度的比值 :
。
5.如权利要求2所述基于改进Apriori算法的雷电活动数据统计方法,其特征在,所述步骤2)的具体过程是:于有向图与加权关联规则的Apriori算法的优化方法,其特征在,如果该事务中存在对应的项则设置对应项为1,否则设置对应项为0,当检查完所有事务集合每个项对应一个二进制位串,然后按照支持数从高到低排序将数据库中的项目节点映射到位图,设最小支持度计数是2,则在本数据库中频繁项是i1,i2,i3,i4,i5;
对应Bi1=(100110111),Bi2=(111101011),Bi3=(0010lllll),Bi4=(010100000),Bi5=(100000010)。
6.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法,其特征在,所述步骤4)的具体过程是,(1)频繁2项集做深度优先遍历,并记录最长路径D;
(2)D中路径长度为l,如果l=0,说明找不到频繁项集,否则,当l>0时,执行(3);
(3)计算D中每一条路径的加权支持度,找出所有满足最小支持度的路径,若存在,它们就是频繁项集,算法到此结束;
否则执行(4);
(4)对于D中的每一条路径,找出所有路径的长度为l-1的子集,并利用图1验证它们是否连通,若为连通路径,将该路径记录在D中,返回(2)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西省气象局,未经陕西省气象局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310480978.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分体自吸式文丘里管洗涤器
- 下一篇:一种湿式布袋深度除尘系统