[发明专利]一种大数据环境下的数据优化及快速抽样方法有效

专利信息
申请号: 201710452151.4 申请日: 2017-06-15
公开(公告)号: CN107273493B 公开(公告)日: 2020-08-25
发明(设计)人: 张浩澜;陈剑平;李兴森 申请(专利权)人: 浙江大学宁波理工学院
主分类号: G06F16/2458 分类号: G06F16/2458;G06F17/18
代理公司: 宁波甬致专利代理有限公司 33228 代理人: 李迎春
地址: 315100 浙江省宁波*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 本发明涉及一种大数据环境下的数据优化及快速抽样方法,包括:(1)、将大数据集部署在云环境中;(2)、按照数值属性将大数据集划分成若干子数据集,将数值形式的子数据集筛选出;(3)、选取需要进行分析的子数据集,判断该子数据集的数据分布是接近正态分布还是泊松分布,再使用本专利提出的正态抽样算法或泊松抽样算法,对该子数据集快速提取得出数据块,从中抽样若干个数据块进行分析,通过正态分割算法或泊松分割算法进行快速提取得出的样本数据块继承了子数据集的均值、方差等属性,那么只需要抽样数据块进行分析就能保证得出的数据块与子数据集的高度一致性与代表性,这样方式极大地缩短数据分析时间,提高数据分析效率。
搜索关键词: 一种 数据 环境 优化 快速 抽样 方法
【主权项】:
一种大数据环境下的数据优化及快速抽样方法,其特征在于:包括以下步骤:(1)、数据预处理,将大数据集部署在云环境中,按照数值属性将大数据集划分成若干列子数据集,即具备相同数值属性的数据归入到同一列子数据集中,所述子数据集的形式包括数值形式子数据集和文本形式子数据集,将数值形式的子数据集从大数据集中筛选出来;(2)、从筛选出来的若干子数据集中选择出需要进行分析的某一个子数据集,在本地系统下建立一个保存路径,将该子数据集进行保存,并对该子数据集做曲线拟合;(3)、将该子数据集拟合得到的曲线进行判断,如果该曲线的分布形式近似正态分布曲线,执行步骤(4);如果该曲线的分布形式近似泊松分布曲线,那么执行步骤(5);(4)、设置需要对该子数据集进行分割的数据块数量,使用正态分布的分割方法对该子数据集进行分割得出若干数据块,从若干数据块中抽样某个数据块,执行步骤(9);(5)、将拟合近似泊松分布的原始曲线朝纵坐标的方向上移K个单位得到曲线A,再将近似泊松分布的原始曲线朝纵坐标的方向下移K个单位得到曲线B,曲线A与曲线B之间的区域形成一个标准区域;(6)、设置需要对该子数据集进行分割的数据块数量,根据数据块数量来对该子数据集中的数据总数据量进行平均分割,即每个分割得到的数据块所包含的数据量=子数据集的总数据量/数据块数量;(7)、从分割得出的若干数据块中抽取出某一个数据块E,并对该数据块进行曲线拟合,看该数据块拟合得到的曲线是否落在曲线A与曲线B之间形成的标准区域内,如果数据块的曲线落在标准区域内,那么就执行步骤(9);如果数据块的曲线没有落在标准区域内,就执行步骤(8);(8)、任意选择一个样本数据,该样本数据位于除数据块E以外的其他数据块中,如果该样本数据加入到数据块E中,能够使数据块E拟合的曲线位于标准区域内,那么就将该数据点列入数据块E中;如果该样本数据加入到数据块E中无法使数据块E拟合的曲线位于标准区域内,就继续选择样本数据放入数据块E中,直到数据块E的拟合曲线位于标准区域内为止,并执行步骤(9);(9)、对得到的该数据块进行数据分析。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学宁波理工学院,未经浙江大学宁波理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710452151.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top