[发明专利]面向概率数据流的Skyline查询方法无效
申请号: | 201210597574.2 | 申请日: | 2012-12-21 |
公开(公告)号: | CN103150326A | 公开(公告)日: | 2013-06-12 |
发明(设计)人: | 孙圣力;刘京;陈杭 | 申请(专利权)人: | 北京大学软件与微电子学院无锡产学研合作教育基地 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 214125 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 概率 数据流 skyline 查询 方法 | ||
技术领域
本发明涉及一种不确定数据流的查询处理方法,具体涉及一种面向概率数据流的Skyline查询方法。
背景技术
多维空间上的Skyline查询处理技术是近年来数据库领域的研究热点。Skyline在偏好查询、多标准决策支持以及数据挖掘与可视化等方面应用广泛。此前大量的工作都专注于在静态数据集上计算Skyline,近年来也出现了一些在滑动窗口中计算Skyline的研究成果,最近以来,一种被称为概率数据流的数据形态逐步引起了人们的关注。Skyline查询是指从给定的一个D维数据对象集合S中选择一个子集,该子集中的任意一个数据对象都不能被S中的任意一个其他数据对象所支配。所谓支配关系是指在D维空间的数据集合S中,如果数据对象p至少在某一幅度上由于另一个数据对象q,而且数据对象p在其他维度上都不比数据对象q差(p优于或者等于q),那么数据对象p能够支配数据对象q。
数据流管理与分析是近年来数据库领域的研究热点。最近两年以来,数据流的研究重心逐步转移到不确定的概率数据流。数据的不确定性分为两种:元组不确定性和属性不确定性。元组不确定性是指关系数据库中的一个元组关联着一个概率值,表明其存在的可能性,本发明的数据模型即是基于元组不确定性的;属性不确定性是指元组中的每个属性值是不精确的,精确程度以一定概率(或概率密度函数)表示。
与传统确定性数据流上的Skyline计算不同,概率数据流上的计算难点是:(1)尽可能早地淘汰那些不再有机会加入Skyline的对象;(2)采用合适的策略高效地确定新到达对象的身份。
现有的相关工作仅限于静态数据集或传统确定性数据流的Skyline查询处理,尚无人考虑概率数据流上的Skyline计算问题。
发明内容
本发明所要解决的技术问题是提供一种面向概率数据流的Skyline查询方法,能够解决现有技术的问题。
为了解决以上技术问题,本发明提供了一种面向概率数据流的Skyline查询方法,包括:
(1)准备阶段:构建一个概率数据流环境下对象的状态模型:将概率数据流中的每个元组看作一个对象,数据流中观察到的对象在进入系统之前先保存在缓冲区中;
(2)预备阶段:新对象到达后立即调用处理过期对象的方法,从系统中淘汰过期对象并增大被该过期对象支配的对象的Skyline概率;
(3)处理阶段:接着调用确定新到达对象身份的方法,计算新到达对象的Skyline概率并将该新到达对象插入到其所属格中相应的队列中;
(4)最后阶段:最后调用处理被新到达对象支配的方法,处理所有被新到达对象支配的对象,即降低被新到达对象支配的对象的Skyline概率。
优选地,本发明的面向概率数据流的Skyline查询方法,步骤(1)所述概率数据流的每一个元祖被赋予的属性包括:其在数据流中的序列号,其存在的概率,及其在各属性上的取值。
优选地,本发明的面向概率数据流的Skyline查询方法,位于所述缓冲区的概率数据流对象具有如下四种状态:到达态、候选Skyline态、处于Skyline态、和过期态;对象在其整个生命周期内呈现不同的状态,但在一个具体的时刻它只能处于一个确定的状态。
进一步地,本发明的面向概率数据流的Skyline查询方法,采用网格作为索引结构,并且采用队列来保存活动对象,每个网格中关联2个指针列表,分别指向该网格中的Skyline态和候选Skyline态对象的指针。
优选地,本发明的面向概率数据流的Skyline查询方法,步骤(3)将先到达的对象u的支配域和反向支配域划分为I、II、III、IV区域。
进一步地,本发明的面向概率数据流的Skyline查询方法,步骤(3)所述的确定新到达对象身份的方法采用概率定界方法,将新到达的对象u,记为格c, 并称为格对象,所述格c的左下角和右上角分别记为Cmin和Cmax,可以得出任何支配Cmin的对象必须支配u,而且任何支配u的对象也必须支配Cmax。
更近一步地,本发明的面向概率数据流的Skyline查询方法,步骤(3)在到达目的的前提下尽可能地减少访问对象树,以减少支配测试的次数,在对所述III区的遍历访问过程中,如果所述到达对象u的概率上界小于概率阈值p,则停止遍历。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学软件与微电子学院无锡产学研合作教育基地,未经北京大学软件与微电子学院无锡产学研合作教育基地许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210597574.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种塔式太阳能吸热器的管屏结构
- 下一篇:抽拉式LED节能灯固定装置