[发明专利]一种获取数据流频繁项的方法有效
申请号: | 201810857265.1 | 申请日: | 2018-07-31 |
公开(公告)号: | CN109165241B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 李文海;谭薇薇;谢晨阳 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06N5/025 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 获取 数据流 频繁 方法 | ||
本发明提供了一种获取数据流频繁项的方法,包括:从数据流中获取数据项;在预设数量的数据结构集中,根据所述数据项生成频繁项的数据结构集;其中,所述数据结构中包括与数据项相关联的统计信息。本申请避免了对每个计数器的误差维护,因而计数频率可以构成真实频率的上界。同时,伴随新的低频数据项的不断到来,不会出现高频数据项统计值的递减而增加统计误差的现象。
技术领域
本申请涉及数据挖掘领域,具体涉及获取数据流频繁项的方法。
背景技术
数据挖掘技术主要应用于数据密集型场景中。随着信息技术的广泛应用,二十世纪末在数据挖掘的应用中出现了一种新的数据处理模型——数据流(Data Stream)。该模型用以处理按时间顺序到达的连续序列,具备以下六个特点:(1)规模大,(2)有序,(3)不确定,(4)快速,(5)无界,(6)流式。
数据流挖掘,就是在数据流上提取隐含的和潜在有用的信息和知识的过程。特别是,数据流算法要求在流式环境下执行。所述算法的处理前提是不保存观测数据全集,并在单次扫描的前提下完成。该类问题的求解着重考虑两方面:(1)数据实时到达,需要做快速的处理和响应;(2)由于通常在内存中处理数据,因此需要重点对空间利用率进行优化。
如何在有限的运算空间中处理无限的数据是该类算法的难度所在。
发明内容
本申请提供一种获取数据流频繁项的方法;以解决在有限的运算空间中处理无限的数据的问题。
为了解决上述技术问题,本申请实施例提供了如下的技术方案:
一种获取数据流频繁项的方法,其特征在于,包括:
从数据流中获取数据项;
在预设数量的数据结构集中,根据所述数据项生成频繁项的数据结构集;
其中,所述数据结构中包括与数据项相关联的统计信息。
在上述的方法,所述数据结构,至少包括以下数据:数据项,数据项的统计频度和累计误差。
在上述的方法,根据所述数据项生成频繁项的数据结构集具体包括
串行算法:针对单个的处理核对进行处理,得到若干分支结果;
并行算法:针对串行算法得到的分支结果进行合并处理,并得到整合结果。
在上述的方法,所述串行算法具体包括:
步骤SS2,对数据项的处理,具体如下:
步骤SS21,若数据结构集中的数据结构的数据项与所述获取的数据项相同,则数据结构的统计频度加1;
步骤SS22,若所述获取的数据项没有与数据结构集中的数据结构的数据项相同的,但存在空闲计数器,表示空,则将获取的数据项分配给空闲的计数器,并设置统计频度为1;
步骤SS23,若所述获取的数据项没有与数据结构集中的数据结构的数据项相同的,也不存在空闲计数器,则数据结构集中的所有数据结构的数据项的统计频度均减1;
步骤SS3,整理数据结构集,具体步骤如下:
步骤SS31,如果数据结构集中的数据结构统计频度,则对其累积误差加1得到;
步骤SS32,如果数据结构集中的数据结构统计频度,则使数据结构。
在上述的方法,所述并行算法包括数据分块和概要合并两大部分,定义输入流S由n个数据元素构成,P为并行处理核的个数,则并行算法步骤包括:
步骤SP1,数据分块;在此部分,每一个处理核将遵循一定的规则,把当前到来的所有数据进行分块,具体的分块规则根据具体应用而定,具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810857265.1/2.html,转载请声明来源钻瓜专利网。