[发明专利]一种基于FP-树的时空数据挖掘分析方法在审
申请号: | 201810877226.8 | 申请日: | 2018-08-03 |
公开(公告)号: | CN109344150A | 公开(公告)日: | 2019-02-15 |
发明(设计)人: | 宋耀莲;田榆杰;龙华;王慧东;徐文林;武双新 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时空数据 关联规则 事务表 时空 次扫描 置信度 挖掘 关联规则分析 关联关系 频繁模式 转换处理 分析 树算法 构建 维度 排序 三维 数据库 保留 | ||
1.一种基于FP-树的时空数据挖掘分析方法,其特征在于:
Step1、建立一个时空数据信息记录的数据库,并对数据进行转换处理后生成新的事务表,表中包括以下字段:事务编号ID、空间谓词、属性值、时间值;
Step2、设置最小支持度阈值min_sup和最小置信度阈值min_conf,对事务表进行第一次扫描,去除掉事务表中所有支持度计数support_count_x小于最小支持度阈值的数据项,记录剩余数据项的支持度计数并按降序排序,生成频繁1-项集的新事务表;
Step3、对新事务表进行第二次扫描,初始化FP-树,以字符null做为根节点,按照新事务表顺序依次插入每条事务的数据项作为节点,生成对应的分支路径同时建立项头表,项头表中,在加入数据项节点时需统计其出现的次数,形式为(Xi,N),Xi为第i个数据项,N为出现的次数;
Step4、从FP-树的每条路径的结尾节点依次向上提取出相应的3-项集,3-项集的支持度计数support_count_xj大于等于min_sup时,该3-项集作为频繁3-项集l保留,反之剔除;
Step5、设每个频繁3-项集l中的空间谓词为子集s,若属性值与时间值的集合(l-s)与s的支持度计数之比大于等于最小置信度阈值min_conf,则输出强时空关联规则该强规则的置信度大小为l与s的支持度计数之比的值将所计算出来的所有强时空关联规则按照其置信度confidence的大小进行排序,生成时空关联规则表;
Step6、将时空关联规则表结合实验数据的背景知识,对该结果进行相应的意义分析、比较。
2.根据权利要求1所述的基于FP-树的时空数据挖掘分析方法,其特征在于:所述步骤Step1中,收集到的时空数据包括名称、属性值、地址和发生时间,对其进行数据的转换处理,具体步骤为:
(1)对收集的数据进行预处理,过滤掉不相关的冗余数据,包括不在研究目标时间与空间范围内的数据;
(2)对空间数据进行形式化处理,按各对象与某一目标对象的空间距离关系来对各个对象数据赋予相应的空间谓词;
(3)接着按事务具体发生的时间点,生成事务表来存储处理过的时空数据,事务表包括以下几个字段:事务ID、空间谓词、属性值、时间点。
3.根据权利要求1所述的基于FP-树的时空数据挖掘分析方法,其特征在于:所述步骤Step3中,分支路径由根节点null和对应的数据项节点组成,其中数据项节点的路径顺序为Step2中的频繁项支持度计数降序排序。
4.根据权利要求1所述的基于FP-树的时空数据挖掘分析方法,其特征在于:所述步骤Step5的强时空关联规则置信度大小的计算公式如公式(1)所示:
其中:
式中,min_conf为最小置信度阈值;l为频繁3-项集,s为l的空间谓词非空子集;support_count(l)、support_count(s)、support_count(l-s)分别为括号内字母的支持度计数,为强时空关联规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810877226.8/1.html,转载请声明来源钻瓜专利网。