[发明专利]一种面向流式数据的非重复采样方法有效
申请号: | 201910811871.4 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110609832B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 温延龙;鲁茸定主;袁晓洁 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 天津耀达律师事务所 12223 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 数据 重复 采样 方法 | ||
1.一种面向流式数据的非重复采样方法,其步骤为:
第1、读取流式数据,判断全局组团直径数组的稳定性;
设置一个变量来存储全局组团直径数组的稳定性,初始值设置为0,表示不稳定,再进入第2步,之后在第4.1步中重新计算全局组团直径数组的稳定性,若达到稳定,则置为1,同时对于下一轮的数据而言,将直接进入第5步;
定义1:流式数据,定义如下:
流式数据是一组顺序、大量、快速、连续到达的数据序列,流式数据被视为一个随时间延续而无限增长的动态数据集合;
第2、存储部分流式数据作为训练数据集,并进行数据清洗,去除不规范数据点;
第2.1、对于流式数据,数据会源源不断的到来,选取一个预设固定时间段内的数据进行存储,作为训练数据集;
第2.2、清洗训练数据集,去除不规范数据点;
定义2:不规范数据点,定义如下:
对于同一个数据集中的任意一个数据点,若存在以下一个或者多个情况,则该数据点为不规范数据点:
(1)存在缺失属性,也即数据点采集不完整;
(2)存在错误属性;
(3)存在重复数据点,也即存在所有属性均一致的数据点,那么除去第一次出现的数据点以外,剩余数据点均为重复数据点;
第3、基于数据集各维度分离度的特性,学习训练数据集在各维度上的最优组团直径;
定义3:(α,β)-数据集,定义如下:
令S为流式数据,d为S的数据维度,D(.,.)为欧式距离度量方法,α(α1,…,αd)为组团直径数组,β(β1,…,βd)为距离阈值数组,其满足βiαi,i∈[1,d];那么对于任意S中的数据点u,v有:
要么D(ui,vi)≤αi,要么D(ui,vi)≥βi,αi,i∈[1,d],
则称流式数据S为(α,β)-数据集;
定义4:分离度,定义如下:
令S为(α,β)-数据集,那么在某一个维度i,存在多个符合要求的αi和βi,取其中αi的最小值min(αi),取βi的最大值max(βi),那么在维度i上的分离度为:
max(βi)/min(αi),i∈[1,d];
第4、更新全局组团直径数组;
第4.1、计算全局组团直径数组是否稳定,预先设置一个阈值,判断在训练数据集每一个维度上的组团直径与对应全局组团直径之间的误差是否在阈值范围内,只有当训练数据在所有维度上的最优组团直径与对应全局组团直径的误差都在阈值范围内,这时全局组团直径达到稳定;
第4.2、若全局组团直径数组未达到稳定,则在每一个维度上,将训练数据的最优组团直径与全局组团直径以2:8权重进行加权平均,得到更新后的全局组团直径数组;
第5、结合局部敏感哈希,对流式数据进行非重复采样,并实时维护接收集合与拒绝集合;
第5.1、使用局部敏感哈希分配桶id;
通过局部敏感哈希将高度相似的数据点映射到相同的桶中,在每一个数据点到来时,为该数据点分配对应的桶id;
第5.2、计算该数据点是否为代表点;
如果该数据点不是代表点,说明在该数据点到来之前,已经有与该数据点类似的数据点到达,他们同属一个组团,具有相似的特征值,所以设定先到的数据点作为代表整个组团的代表点,之后到的数据点就可以直接丢弃;如果该数据点是代表点,就表明该数据点是一个全新组团的代表点,就进入第5.3步;
定义5:代表点,定义如下:
令S为(α,β)-数据集,Srep为当前所有的代表点集合,对于一个来自S的数据点u,如果有:
其中,Space(v)代表以v为中心,以αi,i∈[1,d]为第i维直径长度的欧式空间,那么数据点u为S中的一个代表点;
第5.3、计算数据点所属的网格是否被采样;
在数据点为代表点的前提下,通过查看代表点所属的网格是否被采样,来决定是否采样该代表点,如果该数据点是代表点,并且其所属网格被采样,那么该数据点就被加入接受集合中,否则进入第5.4步;
定义6:网格:
令S为(α,β)-数据集,那么α(α1,…,αd)为S的组团直径数组,那么定义一个网格为在高维欧式空间中以αi/2,i∈[1,d]为第i维直径长度的空间,这些网格对整个完整的欧式空间进行了切割,同时由于各个维度的整体取值范围是有界限的,所以需要切割的欧式空间是有界限的,也即是总的网格数是有限的,能够在有限时间内完成;
定义7:所属的网格,定义如下:
对于数据点u来说,其所属的网格,也即是u所分布在欧式空间上的位置对应被切割到的网格;所以,每一个数据点有且仅有一个所属网格;
第5.4、计算数据点周围的网格是否被采样;
在数据点为代表点,同时其所属网格没有被采样的前提下,计算该数据点周围的网格是否被采样,如果其周围的网格被采样,那么该数据点就被加入拒绝集合,否则直接丢弃;存在接受集合与拒绝集合,就能够在采样过程中保证每一个代表点都能够被相同的概率采样,同时也保证了一个组团只会产生一个代表点;
定义8:周围的网格,定义如下:
对于数据点u来说,其周围的网格,代表了以u为中心,各维度直径为αi,i∈[1,d]的空间内,除去u所属网格以外的所有网格;所以,每一个数据点,拥有多个周围的网格;
第6、每当查询到来,就能够从接受集合中随机采样出结果集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910811871.4/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置