[发明专利]一种基于有序复合树结构的数据流最大频繁项集挖掘方法在审
申请号: | 201510121017.7 | 申请日: | 2015-03-19 |
公开(公告)号: | CN104850577A | 公开(公告)日: | 2015-08-19 |
发明(设计)人: | 陈庭贵;许翀寰 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于有序复合树结构的数据流最大频繁项集挖掘方法。适用于金融数据时序挖掘、商业数据流关联分析等众多领域。本发明针对现有最大频繁项集挖掘方法存在的不足诸如执行效率过低、消耗内存多大等。采用滑动窗口处理数据流,分割滑动窗口为若干个基本单位,更新获取数据流片段信息,单遍扫描片段信息得到频繁项集并存储于频繁项集列表内。方法构建的有序FP-tree,随项集的插入,动态调整树型结构,合并同一分支中支持度相等的邻接结点,压缩生成有序复合FP-tree。该方法能够高效、快速得对数据流进行最大频繁项集挖掘,具有良好的应用价值。 | ||
搜索关键词: | 一种 基于 有序 复合 结构 数据流 最大 频繁 挖掘 方法 | ||
【主权项】:
一种基于有序复合树结构的数据流最大频繁项集挖掘方法,包括以下步骤:步骤1.频繁项集列表的构建:获取基本滑动窗口中的数据流片段信息,设ε为允许偏差因子,S为最小支持度;为了减小误差,在实际操作中取S‑ε为最小支持度阈值,单遍扫描基本窗口中的项目数据集得到按支持度由高到低排序的一项集头表及剔除非频繁项目的频繁项集列表,当支持度相等时,按一定的文法顺序排序,通常按字典顺序;其中,频繁项集列表的特征简述如下:频繁项集列表中的项集按项目的长度排序,长度相同时,按首字母排序,首字母的顺序遵循头表中的排序;项目内元素按支持度高低排序;步骤2.有序复合树结构的创建:新建有序FP‑tree的根结点root,初始化为null,将频繁项集列表中的项目依次插入该树中;插入时,递归调用insert_tree([i|I],T)方法,其中i指向当前插入的项目,I为项集列表中剩余的项目集合,T为有序FP‑tree,初始时T即为根结点root。生成有序FP‑tree后,合并同一分支中支持度相等的邻接结点,压缩生成有序复合FP‑tree;insert_tree([i|I],T)方法描述如下:按频繁项集列表中项目顺序依次插入该多叉树;新项目中的元素插入时,遇到结点不同时,并不直接产生分支,而是继续搜索当前路径,向下比较;比较的原则为:设当前搜索到的结点为i,待插入结点j,若j与i不相同,且j在一项集头表中的位置位于i的下方,则向i的子树搜索,直至找到相同结点或搜索到的结点在头表中的位置位于j的下方,停止,而后产生分支;结点调整方式:在依次插入的过程中,对上一次插入的结点进行调整,设同一路径中两结点为i,j。i是j的父结点,若j的支持度大于i的支持度,则进行调整,将i的父结点作为j的父结点,i作为j的孩子结点;步骤3.最大频繁项集的存储:挖掘出最大频繁项集,并存储于MFP‑tree[]中,对新到达基本窗口的项目或者离开的旧项目,采用增量更新方法进行处理;挖掘有序复合FP‑tree中最大频繁项集的方法为按支持度由低到高的顺序搜索有序复合FP‑tree中的每一层结点,在同一层按照从左向右的顺序。由于有序复合FP‑tree的结构特性,搜索到第一个支持度大于最小支持度的结点时,即停止对该结点的前缀结点进行最小支持度的比较,直接将该结点以及它的前缀结点存于MFP‑tree[]中;对于某结点j,j有孩子结点,且j的支持度大于或等于最小支持度,但其孩子结点支持度之和不等于j,则不将该计入父结点构成的最大频繁项集中;增量更新方法:新项目到达基本窗口时,根据步骤1)更新一项集头表和频繁项集列表,根据步骤2)更新有序复合FP‑tree,同时更新MFP‑tree[]中的最大频繁项集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510121017.7/,转载请声明来源钻瓜专利网。
- 上一篇:媒体内容生成发布方法及系统
- 下一篇:一种数据采集方法及装置