[发明专利]基于分位概要获取不确定数据集全局概率分布方法及装置在审
申请号: | 202010049533.4 | 申请日: | 2020-01-16 |
公开(公告)号: | CN111291108A | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 梁春泉;李梅;蔚继承;景旭 | 申请(专利权)人: | 西北农林科技大学 |
主分类号: | G06F16/26 | 分类号: | G06F16/26;G06F16/2455 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 李婷;赵中霞 |
地址: | 712100 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 概要 获取 不确定 数据 全局 概率 分布 方法 装置 | ||
1.一种基于分位概要的获取不确定数据集全局概率分布方法,其特征在于,具体包括如下步骤:
步骤1:申请并初始化存放分位概要数据序列的存储空间;
申请一个有序元组序列T(n)=T0,T1,T2,…,Ts,用于存放所观察到的不确定数据的分位概要信息,初始化为空;序列中每个元组Ti=(vi,gi,Δi)记录三个值:vi用于存放已观察到的某个不确定数据中的点值,gi和Δi则用于记录vi在所观察到数据中的排位的下界和上界;申请变量vmin和vmax并初始化,分别用于记录所读入不确定数据的最小值和最大值;
步骤2:流式读入不确定数据,形成不确定数据流;
若不确定数据集为存放在本地存储设备中的静态数据集,则一个接一个地读入,形成数据流,输入概要数据生成模块;若从网络中以数据流传输到达,则直接输入概要数据生成模块;所形成的不确定数据流为一个序列其中每个不确定数据表示为取值区间[ai,bi]上的概率密度fi(x),且都有一个权值为wi;
步骤3:为每一个读入的不确定数据生成概要数据,插入到分位概要数据列表T(n)中;
每当读入一个新的不确定数据假设概率密度为fn(x),x∈[an,bn],权值为wn,首先利用当前已生成概要数据序列T(n)=T0,T1,T2,…,Ts记录的点值v0,v1,v2,…,vs,将不确定区间[an,bn]分割为一系列邻接子区间SI={[an1,bn1],(an2,bn2],…,(anm,bnm]},即有bnj=aj+1;接着从每个不确定子区间选择点值,为之生成新的元组并插入到T(n)中;对一个位于元组Ti和Ti+1之间的子区间[anj,bnj],从中选择点值和处理步骤如下:
步骤3.1:选择bnj;
步骤3.2:如果Ti+1存在,从[anj,bnj]选择一个最小值vl,要满足执行操作更新Ti+1;为不确定数据集Su的概率势;∈是用户给定用于指定分布误差的参数;
步骤3.3:重复以下操作,直到vl≤anj;
步骤3.4:假设前一个选择的点值为vh,从[anj,vh]中选择一个最小值vl,使得
步骤3.5:创建一个新元组
步骤3.6:如果Ti存在,将Th插入到Ti之后,否则Th插入到T(n)第一个位置;
步骤4:合并分位概要数据列表,减少内存开销;
步骤4.1:从第s-2个元组开始,倒序遍历元组列表T(n);
步骤4.2:如果B(Ti)≤B(Ti+1)并且则更新Ti+1为
步骤4.3:删除Ti及Ti(*)元组序列;
其中,B(Ti)=α为元组Ti的分级值,满足:
2α-1+2∈PC(Su)mod2α-12∈PC(Su)-Δi≤2α+2∈PC(Su)mod2α
Ti(*)为位于Ti之前且分级值小于B(Ti)的最长连续元组序列;为的Ti(*)中各元组g值之和;
步骤5:通过分位查询将分位概要数据转换为频率分布直方图;
分位查询操作:对用户给定参数φ的分位查询,在T(n)找到满足且的元组Ti,返回vi作为查询结果;
步骤5.1:执行φ=0,1/M,2/M,…,M/M的M+1个分位查询,其中M为用户指定参数;
步骤5.2:对所有相邻查询结果vl和vh,执行以下操作:
步骤5.3:以线段vl vh作为直方图小矩形的底边;
步骤5.4:计算小矩形的高为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北农林科技大学,未经西北农林科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010049533.4/1.html,转载请声明来源钻瓜专利网。