[发明专利]一种基于改进的水塘抽样的大数据集多遍随机抽样方法有效
申请号: | 201611203570.6 | 申请日: | 2016-12-23 |
公开(公告)号: | CN106649723B | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 许卓明 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 肖明芳 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 提供一种基于改进的水塘抽样的大数据集多遍随机抽样方法,包括步骤:打开含n个数据记录的大数据集文件以便能从中读取数据记录,输入用于随机抽样的水塘的大小k,并为水塘分配正好能容纳k个数据记录的内存空间,输入随机抽样的遍数m,要求满足k*mn;创建并打开小数据集文件以便能在其中写入已抽样到的数据记录;将大数据集文件中所有数据记录均初始化地标记为“未被抽样的”;重复进行m遍随机抽样,在每遍随机抽样过程中,利用水塘从大数据集文件中随机抽取k个“未被抽样的”数据记录,并将它们添加至小数据集文件,同时将它们标记为“已被抽样的”;关闭上述大、小数据集文件,完成多遍随机抽样过程。该方法简单易行,应用前景广阔。 | ||
搜索关键词: | 一种 基于 改进 水塘 抽样 数据 集多遍 随机 方法 | ||
【主权项】:
一种基于改进的水塘抽样的大数据集多遍随机抽样方法,包括下列步骤:步骤S1:打开含n个数据记录的大数据集文件以便能从中读取数据记录,输入用于随机抽样的内存区域即水塘的大小k,并为水塘分配正好能容纳k个数据记录的内存空间,输入随机抽样的遍数m,要求满足k与m的乘积小于n,即k*m<n;步骤S2:创建并打开小数据集文件以便能在其中写入已抽样到的数据记录;步骤S3:将大数据集文件中所有数据记录均初始化地标记为“未被抽样的”;步骤S4:重复进行m遍随机抽样,在每遍随机抽样过程中,利用水塘从大数据集文件中随机抽取k个“未被抽样的”数据记录,并将它们添加至小数据集文件,同时将它们标记为“已被抽样的”;步骤S5:关闭上述大、小数据集文件,完成多遍随机抽样过程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611203570.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种监控系统高频数据的存储及查询方法
- 下一篇:信息显示方法、装置及用户终端