[发明专利]一种基于改进Apriori算法的雷电活动数据统计方法无效
申请号: | 201310480978.8 | 申请日: | 2013-12-13 |
公开(公告)号: | CN103593400A | 公开(公告)日: | 2014-02-19 |
发明(设计)人: | 王卫民;李婧;雷欣;田社教;高莹 | 申请(专利权)人: | 陕西省气象局 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F19/00 |
代理公司: | 西安亿诺专利代理有限公司 61220 | 代理人: | 康凯 |
地址: | 710000 陕西省西安*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 apriori 算法 雷电 活动 数据 统计 方法 | ||
技术领域
本发明属于激光技术领域,具体涉及一种基于改进Apriori算法的雷电活动数据统计方法。
背景技术
随着计算机网络的迅速发展和数据库技术日渐成熟,人们采集利用数据的能力得到了极大提高,为了从这些大量的、随机的实际应用数据中,抽取出能为人们所利用的信息,数据挖掘技术就应运而生。数据挖掘又称为知识发现,是目前数据库的主要研究方向,是指从大量的、不完整的、有噪声的、模糊的、随机的大型数据中寻找潜在的、不为人们事先知道的、具有潜在价值的模式或知识的过程。
由R.Agrawal等人于1993年提出的关联规则是数据挖掘领域的一个重要内容。关联规则挖掘是指从大量的数据集项间挖掘出有意义的关联关系,从而为各种决策提供有价值的信息。现有的各种关联规则挖掘算法大致可分为层次法、抽样法、搜索法、数据集划分法等。
Apriori算法是挖掘完全频繁项集中最具有影响力的方法之一,主要有两个关键步骤:一是根据最小支持度在大量事务中寻找所有的频繁项集;二是根据最小置信度生成频繁项集强关联规则。其核心思想是通过项目集数目不断增长来逐步完成频繁项目集的发现,搜索出用于求得关联规则的频繁项目集L。
Apriori算法具体步骤为:在第一趟扫描数据库时,搜索出所有支持度大于等于最小支持度的项集组成频繁1项集L1,然后是频繁2项集L2,直到有某个值使Lr为空时算法结束。在第k趟扫描中,首先以K-1趟扫描中所发现的频繁集Lk-1作为种子集来生成新的潜在的K-强项集的集合,即候选集Ck,Ck中的每一个项集是对两个只有一个项不同的属于Lk-1的频集做一个(k-2)连接来产生的,计算这些候选集的支持度,最后从候选集Ck确定出满足最小支持度的频繁K项集Lk,并将Lk作为下一趟扫描的种子集。
Apriori算法中候选项集是逐层迭代产生的,而产生每一层的频集必须要扫描整个数据库一次, 然后再结合频集产生下一层级的候选项集合,直到频集无法结合产生候选项集。整个过程需要很大的I/O开销。在实际应用中数据量很大,故而每个阶段会产生大量候选项集(尤其是2-项集),多次扫描庞大的数据,效率往往比较低。为了提高Apriori算法的效率,国内外数据挖掘领域的专家、学者不断对其理论及方法进行优化和改进,提出了很多计算效率高、适用性强的新型挖掘算法,例如:Savasere 提出的 Partition 算法、Toivonen 提出的 Sampling 算法、Park提出的利用 DHP 哈希技术的改进算法和Jiawei Han提出的FP-Growth算法等。这些算法虽然对Apriori的改进都大有裨益,但依然还存在一些不足。
发明内容
本发明的目的在于针对现有Apriori算法的不足,提出一种基于改进Apriori算法的雷电活动数据统计方法。该算法不仅在空间和时间上提高Apriori算法的效率,还更贴合实际需求。为实现上述目的,本发明采用基于有向图与加权关联规则的优化策略对Apriori算法进行改进。
为达上述目的,本发明提供了本发明结合实际需求对各项目赋予适当权值,将原有支持度与置信度改进为更符合实际的加权支持度与加权置信度。并利用频繁二项有向图寻找所有符合要求的频繁集,即基于有向图与加权关联规则的Apriori算法的优化方法,主要实现步骤是:
步骤1,计算加权支持度与加权置信度子算法:为每个项目赋予[0,1]之间一个非负实数作为权值,以体现该项目的重要度,并根据该权值计算各项集的权重,进而推出项集的加权支持度与加权置信度。
本发明中所涉及的支持度与置信度定义如下:项目集合I={ i1, i2, …, im}是由m个不同的项组成。交易数据库D中每一笔交易都是I的一个子集.关联规则的形式为X =>Y,其中X∈I,Y∈I,且X∩Y= ,它的支持度sup(XUY)为XUY在交易数据库中出现的概率,它的信任度conf( XUY)为在某交易中包含X前提下同对也包含Y的概率.也就是说,关联规则X =>Y的支持度为数据库中包含XUY的交易数与总交易数之比;关联规则的信任度为数据库中包含XUY的交易数与包含X的交易数之比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西省气象局,未经陕西省气象局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310480978.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分体自吸式文丘里管洗涤器
- 下一篇:一种湿式布袋深度除尘系统