[发明专利]一种基于改进Apriori算法的雷电活动数据统计方法无效

专利信息
申请号: 201310480978.8 申请日: 2013-12-13
公开(公告)号: CN103593400A 公开(公告)日: 2014-02-19
发明(设计)人: 王卫民;李婧;雷欣;田社教;高莹 申请(专利权)人: 陕西省气象局
主分类号: G06F17/30 分类号: G06F17/30;G06F19/00
代理公司: 西安亿诺专利代理有限公司 61220 代理人: 康凯
地址: 710000 陕西省西安*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 改进 apriori 算法 雷电 活动 数据 统计 方法
【权利要求书】:

1.一种基于改进Apriori算法的雷电活动数据统计方法,其特征在于,包括以下步骤:

1)、计算加权支持度与加权置信度:为每个项目赋予[0,1]之间一个非负实数作为权值,以体现该项目的重要度,并根据该权值计算各项集的权重,进而推出项集的加权支持度与加权置信度,所述支持度与置信度定义是:项目集合I={ i1, i2, …, im}是由m个不同的项组成,交易数据库D中每一笔交易都是I的一个子集,关联规则的形式为X =>Y,其中X∈I,Y∈I,且X∩Y=,X的支持度sup(XUY)为XUY在交易数据库中出现的概率,X的信任度conf( XUY)为在某交易中包含X前提下同对也包含Y的概率.也就是说,关联规则X =>Y的支持度为数据库中包含XUY的交易数与总交易数之比;关联规则的信任度为数据库中包含XUY的交易数与包含X的交易数之比;

2)、垂直位矢量格式转换:将原水平数据格式{事务标志:事务项集}转化为垂直数据格式{项:事务集},然后扫描数据库一次,计算出符合加权支持度与加权置信度的频繁项,并设置它们相应的位矢量;

3)、频繁二项图生成:根据频繁项计算出符合关联规则的频繁2项集,以各个满足频繁2项集的项目作为节点,绘制出表示各个项目之间关系的有向图;

4)候选项集挖掘:通过对频繁2项图的深度优先遍历,找到该图的最长路径,即为最长频繁项集,继而根据任何强项集的子集必定是强项集的性质,找出所有频繁集。

2.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法,其特征在,所述步骤2)的具体过程是:如果该事务中存在对应的项免则设置对应项为1,否则设置对应项为0,当检查完所有事务集合每个项对应一个二进制位串,然后按照支持数从高到低排序将数据库中的项目映射到位图。

3.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法,其特征在,所述步骤3)的具体过程是:将得到的位图中1出现次数最多的节点放在最上层,若某两项在一次事务中同时出现,并且出现的次数满足最小支持度要求,大于或等于最小支持度,则在有向图中这两个节点之间画一条边,边上用二进制字符串表示,二进制字符串通过两个节点求与运算得到,其中串中1的个数表示这两个节点同时出现的次数。

4.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法,其特征在,加权支持度与加权置信度的具体计算过程是:

设I={ i1, i2, …, im},对应i的权值向量W={ w1, w2, …, wm },第 i个事务ti是I的一个子集,ti中第j个项目(记作ti [ij])都有一个权值w,

这样每一个项目都与W中的一个值对应起来,项集事务权值是一个数据库中项目集中各项目的权值汇总,项目集X在事务ti中的项目权值计算为:                                                

加权支持度是事务数据库中包含该项目的事务项集权值的汇总:

其中NX是X在数据库中出现的计数;n是总记录数;

加权置信度是事务数据库中满足X∪Y 的加权支持度与包含X的加权支持度的比值 :

5.如权利要求2所述基于改进Apriori算法的雷电活动数据统计方法,其特征在,所述步骤2)的具体过程是:于有向图与加权关联规则的Apriori算法的优化方法,其特征在,如果该事务中存在对应的项则设置对应项为1,否则设置对应项为0,当检查完所有事务集合每个项对应一个二进制位串,然后按照支持数从高到低排序将数据库中的项目节点映射到位图,设最小支持度计数是2,则在本数据库中频繁项是i1,i2,i3,i4,i5

对应Bi1=(100110111),Bi2=(111101011),Bi3=(0010lllll),Bi4=(010100000),Bi5=(100000010)。

6.如权利要求1所述基于改进Apriori算法的雷电活动数据统计方法,其特征在,所述步骤4)的具体过程是,(1)频繁2项集做深度优先遍历,并记录最长路径D;

(2)D中路径长度为l,如果l=0,说明找不到频繁项集,否则,当l>0时,执行(3);

(3)计算D中每一条路径的加权支持度,找出所有满足最小支持度的路径,若存在,它们就是频繁项集,算法到此结束;

否则执行(4);

(4)对于D中的每一条路径,找出所有路径的长度为l-1的子集,并利用图1验证它们是否连通,若为连通路径,将该路径记录在D中,返回(2)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西省气象局,未经陕西省气象局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310480978.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top