[发明专利]基于分位概要获取不确定数据集全局概率分布方法及装置在审
申请号: | 202010049533.4 | 申请日: | 2020-01-16 |
公开(公告)号: | CN111291108A | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 梁春泉;李梅;蔚继承;景旭 | 申请(专利权)人: | 西北农林科技大学 |
主分类号: | G06F16/26 | 分类号: | G06F16/26;G06F16/2455 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 李婷;赵中霞 |
地址: | 712100 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 概要 获取 不确定 数据 全局 概率 分布 方法 装置 | ||
本发明公开了一种基于分位概要获取不确定数据集全局概率分布方法及装置,该方法以生成分位概要为基础,采用频率分布直方图描述不确定数据流的全局概率分布;首先初始化存放分位概要数据序列的存储空间,持续读入每个不确定数据,为之生成概要数据,插入到序列中;合并部分可合并的概要数据,减少内存开销;最后利用分位概要数据构造频率分布直方图。该方法采用增量式处理,对数据集仅作一遍扫描,可处理大规模静态数据集或数据流;可处理连续型不确定数据;可指定所获取概率分布的误差范围。在不确定数据管理的查询分析、查询计划与优化和数据挖掘等领域都有着广泛的应用前景。
技术领域
本发明属于数据管理与数据分析领域,具体涉及一种基于分位概要获取不确定数据集全局概率分布方法及装置。
背景技术
在数据管理与数据分析领域中,准确获取给定数据集概率分布对数据库管理系统的实现和应用都起着至关重要的作用。这种概率分布是人们存储、理解和使用大规模数据的基础,同时也是数据库管理系统实现查询分析、查询计划与优化、统计数据分析、并行化,以及数据挖掘等任务的关键。大数据时代,为有效管理和应用海量、高速生成的大数据,准确获取数据集概率分布的重要意义更加突出。
获取数据集概率分布的一般方法是对数据集采用概要压缩技术,生成概要数据,如均值、方差、直方图、小波、分位等;其中,最常用的方法是生成直方图,更准确地说,数据集的频率分布直方图。它由直角坐标系中若干个相连的小矩形构成。每个小矩形对应数据集的一个分组,矩形底边表示组距,即组内数据的取值范围;矩形高则表示数据落入该组的频率与组距的比例。此外,分位概要也是一种得到广泛应用的、有效刻画真实数据集全局概率分布的方法。本质上,分位概要也是一种直方图;它可通过一个错误上界降低时空开销,并能确保所获取概率分布的误差精度。
传统生成直方图方法的核心思想是通过按数据取值对数据进行分组来实现的,只能处理确定数据,即要求每个数据的值都为单值。然而,在传感器网络、环境监测、移动对象跟踪、数据清洗与集成等各种应用领域中,由于不可靠性传输、测量不精确、重复抽样、隐私保护等原因,海量数据产生时携带着不确定性信息的现象越来越普遍。一个不确定数的取值不再是单值,例如一个长度测量值表示为10±0.5cm,一个温度值则表示为25±0.7℃,σ=1.6;两者均由多值至构成:前者满足均匀概率分布[9.5,10.5],后者满足高斯概率分布u=25,σ=1.6。由于不确定数据取值不再是单值,不能对其按取值进行分组,传统直方图生成方法无法生成准确的直方图。
另一方面,为有效管理和分析不确定数据,人们同样需要获取不确定数据集的概率分布。这里,为区别于每个不确定数据自身取值的概率分布,称数据集的概率分布为全局概率分布。为获取不确定数据集的分布信息,研究界提出在不缺定数据集上计算最优化直方图、小波或者一些基础统计量,进而获得全局概率分布;然而这些技术仅支持静态数据集,且数据值必须是来自于一个有限大小的离散值域,无法处理连续域上的不确定数据和数据流。但实际应用中,连续域上的不确定数据到处存在且以数据流持续产生,例如传感器网络传递的温度、湿度、光照等值;现有技术都无法准确地获取这种大规模数据或数据流的全局概率分布。因此,设计一种基于分位概要的可获取大规模不确定数据集或数据流全局概率分布的方法是非常有必要的。
发明内容
针对现有技术中的缺陷和不足,本发明提供了一种基于分位概要获取不确定数据集全局概率分布方法及装置,能够获取大规模连续不确定数据集或数据流的概率分布,可通过调节参数指定结果精度。该方法的基本构思是在不确定数据集或数据流上增量地维护分位概要数据;任何时刻,可通过分位查询将概要数据转换为频率分布直方图。
为达到上述目的,本发明采取如下的技术方案:
一种基于分位概要的获取不确定数据集全局概率分布方法,具体包括如下步骤:
步骤1:申请并初始化存放分位概要数据序列的存储空间;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北农林科技大学,未经西北农林科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010049533.4/2.html,转载请声明来源钻瓜专利网。