[发明专利]一种大数据环境下的数据优化及快速抽样方法有效
申请号: | 201710452151.4 | 申请日: | 2017-06-15 |
公开(公告)号: | CN107273493B | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 张浩澜;陈剑平;李兴森 | 申请(专利权)人: | 浙江大学宁波理工学院 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F17/18 |
代理公司: | 宁波甬致专利代理有限公司 33228 | 代理人: | 李迎春 |
地址: | 315100 浙江省宁波*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种大数据环境下的数据优化及快速抽样方法,包括:(1)、将大数据集部署在云环境中;(2)、按照数值属性将大数据集划分成若干子数据集,将数值形式的子数据集筛选出;(3)、选取需要进行分析的子数据集,判断该子数据集的数据分布是接近正态分布还是泊松分布,再使用本专利提出的正态抽样算法或泊松抽样算法,对该子数据集快速提取得出数据块,从中抽样若干个数据块进行分析,通过正态分割算法或泊松分割算法进行快速提取得出的样本数据块继承了子数据集的均值、方差等属性,那么只需要抽样数据块进行分析就能保证得出的数据块与子数据集的高度一致性与代表性,这样方式极大地缩短数据分析时间,提高数据分析效率。 | ||
搜索关键词: | 一种 数据 环境 优化 快速 抽样 方法 | ||
【主权项】:
一种大数据环境下的数据优化及快速抽样方法,其特征在于:包括以下步骤:(1)、数据预处理,将大数据集部署在云环境中,按照数值属性将大数据集划分成若干列子数据集,即具备相同数值属性的数据归入到同一列子数据集中,所述子数据集的形式包括数值形式子数据集和文本形式子数据集,将数值形式的子数据集从大数据集中筛选出来;(2)、从筛选出来的若干子数据集中选择出需要进行分析的某一个子数据集,在本地系统下建立一个保存路径,将该子数据集进行保存,并对该子数据集做曲线拟合;(3)、将该子数据集拟合得到的曲线进行判断,如果该曲线的分布形式近似正态分布曲线,执行步骤(4);如果该曲线的分布形式近似泊松分布曲线,那么执行步骤(5);(4)、设置需要对该子数据集进行分割的数据块数量,使用正态分布的分割方法对该子数据集进行分割得出若干数据块,从若干数据块中抽样某个数据块,执行步骤(9);(5)、将拟合近似泊松分布的原始曲线朝纵坐标的方向上移K个单位得到曲线A,再将近似泊松分布的原始曲线朝纵坐标的方向下移K个单位得到曲线B,曲线A与曲线B之间的区域形成一个标准区域;(6)、设置需要对该子数据集进行分割的数据块数量,根据数据块数量来对该子数据集中的数据总数据量进行平均分割,即每个分割得到的数据块所包含的数据量=子数据集的总数据量/数据块数量;(7)、从分割得出的若干数据块中抽取出某一个数据块E,并对该数据块进行曲线拟合,看该数据块拟合得到的曲线是否落在曲线A与曲线B之间形成的标准区域内,如果数据块的曲线落在标准区域内,那么就执行步骤(9);如果数据块的曲线没有落在标准区域内,就执行步骤(8);(8)、任意选择一个样本数据,该样本数据位于除数据块E以外的其他数据块中,如果该样本数据加入到数据块E中,能够使数据块E拟合的曲线位于标准区域内,那么就将该数据点列入数据块E中;如果该样本数据加入到数据块E中无法使数据块E拟合的曲线位于标准区域内,就继续选择样本数据放入数据块E中,直到数据块E的拟合曲线位于标准区域内为止,并执行步骤(9);(9)、对得到的该数据块进行数据分析。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学宁波理工学院,未经浙江大学宁波理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710452151.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于众包平台处理图像标注任务的交互方法
- 下一篇:一种数据采集方法和装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置