[发明专利]基于密度偏差抽样的数据样本选择方法及装置有效
申请号: | 202010499592.1 | 申请日: | 2020-06-04 |
公开(公告)号: | CN111639716B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 梁俊宇;杨洋;袁兴宇;杨家全;李浩涛 | 申请(专利权)人: | 云南电网有限责任公司电力科学研究院 |
主分类号: | G06F18/15 | 分类号: | G06F18/15;G06F18/23 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 650217 云南省昆*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 密度 偏差 抽样 数据 样本 选择 方法 装置 | ||
本申请提供一种基于密度偏差抽样的数据样本选择方法及装置,在该方法中,根据预先设定的区间个数,将设备产生的第一原始数据划分到多个网格中,统计每个网格内第二原始数据的个数,对每个网格内的第二原始数据进行抽样前,设定抽样总数,进而计算每个网格内第二原始数据的抽样概率。计算每个网格内的第二原始数据的第一样本预估值,然后计算第一原始数据的第二样本预估值,判断所述抽样总数和第二样本预估值的差值是否大于预设阈值,如果是,调整抽样总数,重新计算每个网格内第二原始数据的抽样概率,如果不是,按照各个所述网格内所述第二原始数据的抽样概率进行抽样。采用上述方法,有效解决哈希冲突降低样本质量的问题。
技术领域
本申请涉及设备数据处理领域,尤其涉及一种基于密度偏差抽样的数据样本选择方法及装置。
背景技术
设备产生的原始数据是海量的,设备产生的原始数据能够反映设备原始的状态,通过对原始数据的分析达到对设备原始状态分析的目的。原始数据之间存在相似性和差异性,将原始数据划分到不同的类别中,属于同一类别的原始数据的相似性很大,但不同类别之间的原始数据相似性很小。原始数据划分到不同的类别中的过程称为聚类,对不同类别中的原始数据进行分析称为聚类分析。
聚类分析是在计算机内存的基础上运用算法进行的。如果对每个原始数据进行分析,容易出现算法运行时间过长,甚至内存溢出,导致无法聚类分析。因此,在对原始数据聚类分析之前,从海量的原始数据中抽取一部分原始数据作为样本,然后对样本数据聚类分析,通过分析样本数据反映海量的原始数据的特征,进而反映设备的运行状态。目前,主要采用随机抽样和密度偏差抽样对所有原始数据进行抽样。随机抽样是以相同的概率从所有原始数据中抽取一部分原始数据作为样本。密度偏差抽样首先将所有原始数据划分为不同的组,通过建立哈希函数将各组原始数据映射到哈希表中,根据各组原始数据的密度偏差确定各组的抽样概率。
当原始数据服从均匀分布时,随机抽样不仅能获得高质量样本,而且实现简单、运行效率高;当原始数据分布不均匀时,例如,现有两组原始数据,其中一组有50000个原始数据,另一组有1000个原始数据,假设需要的样本是1%,也就是选取510个原始数据,采用随机抽样,有1000个原始数据的组中仅19个原始数据可能被选取,在这个样本上聚类分析,则将这19个原始数据忽略或者视为孤立点。采用密度偏差抽样,有1000个原始数据的组中被选取的原始数据个数增多,有87个原始数据可能被选取。随机抽样容易丢失一些重要的原始数据,导致抽样样本不能保持所有原始数据的分布特征,有可能丢失小的类别。密度偏差抽样提高了不易被抽取到的原始数据的概率。然而,鉴于密度偏差抽样采用哈希表存储原始数据,哈希表中多组原始数据可能对应同一个地址,而一个地址只能对应一组原始数据,这样可能造成多组原始数据丢失,即产生哈希冲突,降低了样本的质量。因此,采用密度偏差抽样的同时,如何避免哈希冲突以提高样本的质量是现在亟需解决的问题。
发明内容
本申请提供一种基于密度偏差抽样的数据样本选择方法及装置,以解决采用密度偏差抽样中产生哈希冲突的问题。
在本申请的第一方面,公开了一种基于密度偏差抽样的数据样本选择方法,包括:
步骤101,获取设备产生的第一原始数据;
步骤102,根据预先设定的区间个数,将所述第一原始数据划分到多个网格中;
步骤103,统计各个所述网格内第二原始数据总数;
步骤104,根据预先设定的抽样总数,计算各个所述网格内所述第二原始数据的抽样概率;
步骤105,计算所述第二原始数据的第一样本预估值;
步骤106,根据所述第一样本预估值以及所述网格的数量,计算所述第一原始数据的第二样本预估值;
步骤107,判断所述抽样总数和第二样本预估值的差值是否大于预设阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司电力科学研究院,未经云南电网有限责任公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010499592.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种药头发火感度测试方法
- 下一篇:一种高温固体散料余热回收大型换热器