[发明专利]基于时序向量差异序列法聚类的周期关联规则发现算法无效
申请号: | 200610052952.3 | 申请日: | 2006-08-15 |
公开(公告)号: | CN101127037A | 公开(公告)日: | 2008-02-20 |
发明(设计)人: | 曾斌;曾凯;姜小丽;王宇熙 | 申请(专利权)人: | 临安微创网格信息工程有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 311300浙江省临*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时序 向量 差异 序列 法聚类 周期 关联 规则 发现 算法 | ||
1技术领域
本发明涉及在数据挖掘领域发现时间序列的周期关联规则的一种算法;具体涉及一类基于时态约束的各属性状态之间的周期时态关联规则问题,适用于发展有限个属性之间的状态周期性地按时间的关联性的问题。定义了等价事件映射、非相同属性和相同属性的时态关联规则,通过计算支持率和可信度确定时态关联规则的提取。确定时态关联规则的有效性的同时给出了发掘时间序列的周期关联规则的算法主要步骤。
2背景技术
在现实世界中的变化都以时间因素密不可分,所以研究现实世界数据中时态数据的周期性关联规则对于完成周期性经济规律的发现和预测、自然灾害预防等大多数领域可以帮助人类进行正确决策有着重大而深远的意义。
关于时间区域内周期关联规则的研究目前在国内外处于初期起步阶段。例如欧阳为民[1]提出的发现具有时态约束的关联规则,但对周期关联规则没有论述。在OzdenB的《CyclicAssociation Rules》[2]中提出的周期关联规则时间是人为确定的,用户凭经验给定一个时间单位和周期长度(为时间单位的整数倍),并由此将数据划分到若干长度相同的时间段,然后根据这些时间段中存在的事务求解周期性关联规则。这往往会造成时间段的划分不十分准确,更有可能会漏掉一些周期性关联规则。例如,设时间单位为1小时,周期长度为24小时,对于周期性关联规则:牛奶→面包(7AM~8AM),若牛奶→面包的主要分布的时间段为(6:45AM~7:20AM),则可能不成立。这样“在每天的6:45AM~7:20AM时间范围内购买牛奶的客户也会购买面包”的关联规则将不能够发现。还有黄益民的《经常性周期关联规则的研究》[3]主要是对OzdenB的《Cyclic Association Rules》文中算法的改进。
目前已有的周期关联规则发现算法存在的问题主要有:
问题一:时域数据特征点的选择
针对OzdenB的《Cyclic Association Rules》[2]文中的问题徐敏提出的一种新的周期关联规则发现模型[4][5],通过聚类分析将一个周期分为长度不同的时间段,从而可以更准确的发现周期关联规则。但这种周期关联规则发现模型选择每一时刻发生的事务数目为时域数据特征点进行聚类,其聚类是针对事务进行的,而项目自身有自己分布规律,这种聚类方式并不能反映单个项目的规律,它存在问题是:我们以一个例子来说明,对于一段时间,每一天0点到14点的情况都如图1所示,例如以文[4][5]中按每一时刻发生的事务数量聚类在时间区域1-5、6-12每一刻发生的事务数可以分别聚为一类。按每一时刻发生的项目数量聚类在时间区域3-8每一刻项目A发生的数目(包含项目A的事务数目)可聚为一类。时间区域3-8,项目A支持度≈15*5/25*2+(25+20)/2+20*2≈66%,时间区域1-5,项目A支持度≈2.5+(2.5+15)/2+15*2/25*4≈41.3%,时间区域6-12,项目A支持度≈15*2+(15+2.5)/2+2.5*3/20*6≈38.6%。如果最小支持度是54%,按文[4][5]中聚类方法无法发现项目A是频繁的,然而按每一时刻发生的项目数量聚类可发现项目A是频繁的。
虽然按每一时刻发生的项目数量聚类例如文[21]可以解决文[4][5]的问题,但是它还是存在一定的问题。因为按每一时刻发生的项目数量聚类只考虑了项目在每一时刻发生的项目数,而忽略了每一时刻发生的总的事务数。在两个时刻的项目数虽然相同,但有可能两个时刻的总事务数不相同而导致两个时刻的项目支持度不同。然而只有每一时刻的项目支持度才能真正反映和决定项目是否是频繁的。所以按项目聚类只片面的考虑了项目在每一时刻发生的项目数,并不能反映每一时刻项目支持度的内在规律。所以我们仍然以图一中实例情况来说明这个问题。如图一,因为按每一时刻发生的项目数量聚类3-8是一类,如果最小支持度变化为72%,这样一种情况下,3-8的项目A不是频繁的。但是如果按在每一时刻包含项目的事务数目与该时刻发生总的事务数的比值(项目A在每一时刻的支持度)进行聚类的方法6-8时间段每一刻项目A发生的数目与每一刻总事务数的比值可以聚为一类,其项目A支持度略等于75%,所以6-8时间段的项目A是频繁的。然而按照每一时刻项目支持度进行聚类将发现6-8时间段的频繁项目A。按每一时刻发生的项目数量聚类将漏掉6-8时间段的频繁项目。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于临安微创网格信息工程有限公司,未经临安微创网格信息工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610052952.3/2.html,转载请声明来源钻瓜专利网。