[发明专利]一种数据集样本的筛选方法及系统在审
申请号: | 202210122374.5 | 申请日: | 2022-02-09 |
公开(公告)号: | CN114462537A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 王波;罗杨;候小娥;杨文华;郭飞;万鹏;肖清明;史磊;魏文婷;张治民;王晓康;刘凤星 | 申请(专利权)人: | 国网宁夏电力有限公司吴忠供电公司;国网宁夏电力有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/215 |
代理公司: | 北京智绘未来专利代理事务所(普通合伙) 11689 | 代理人: | 张红莲 |
地址: | 751199 宁*** | 国省代码: | 宁夏;64 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 样本 筛选 方法 系统 | ||
一种数据集样本的筛选方法,其特征在于,所述方法包括以下步骤:步骤1,对所述数据集进行多维度提取,并针对每一维度对所述数据集中的所有样本进行异常值筛选;步骤2,对所述数据集中的所有样本进行排序,并基于排序结果获得优选数据集;步骤3,计算所述优选数据集中每一样本的异常频次,并基于预设标准对所述数据集样本进行筛选。本发明方法简单,在最优化运算量的同时,提供了异常值之间的关联关系,使得筛选出的样本精确度更高。
技术领域
本发明涉及数据处理领域,更具体地,涉及一种数据集样本的筛选方法及系统。
背景技术
在数据处理领域中,数据集样本的筛选作为数据建模和后续处理的初始步骤,有效实现数据挖掘、简化数据处理算法、大量降低数据处理运算量的必要流程,能够从海量数据中提取蕴含潜在价值的重点数据,因此在数据处理中具有至关重要的地位。
现有技术中,对于数据集样本的筛选方法相对来说过于简单,通常来说,只包括数据抽取、数据清理和数据加载三个过程,其中实际对于原始采集数据进行处理的过程也只包括数据清理中常用的缺失数据处理、重复数据处理、异常数据处理和不一致数据整理四个部分。具体的,缺失数据处理和不一致数据整理,通常只能够对于明显采集异常的原始数据进行删除,并不能够针对数据采集过程中,较为隐蔽的异常数据进行有效的处理和筛查。
进一步的,现有技术中所采用的异常数据处理方法也较为简单,现有技术中,通常只是对于异常数据本身进行分析,并剔除异常值。而在电力系统数据处理中,由于一条数据样本本身不仅包括一个异常值数据,同时还包括与该项异常值密切相关的其他采集数据值。这使得,现有技术中简单的对于异常值进行剔除或筛查的方法并不能够满足电力系统中数据处理复杂需求的要求。
另外,现有技术中,也并不能能够针对单条数据样本进行异常值出现频次的筛查,换言之,现有技术中,虽然能筛查出相互无关的多个单一异常值,却无法对于一条数据样本获得其相互关联的多个异常值,并通过数据样本的异常严重情况,实现对于样本的精准筛选。
针对上述问题,本发明提供了一种数据集样本的筛选方法及系统。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种数据集样本的筛选方法及系统,通过对数据集进行维度提取和异常值筛选,并针对样本的异常频次实现样本筛选。
本发明采用如下的技术方案。
本发明第一方面,涉及一种数据集样本的筛选方法,其中,方法包括以下步骤:步骤1,对数据集进行多维度提取,并针对每一维度对数据集中的所有样本进行异常值筛选;步骤2,对数据集中的所有样本进行排序,并基于排序结果获得优选数据集;步骤3,计算优选数据集中每一样本的异常频次,并基于预设标准对数据集样本进行筛选。
优选的,步骤1中,数据集实现多维度提取后,维度N≥3;维度N是基于数据集所有样本的相同列名实现提取的。
优选的,异常值筛选方法为箱线图离群值筛选方法或二八定律方法。
优选的,步骤2中,排序方法为主成分分析法和熵权法。
优选的,优选数据集的获取方式为:从排序结果中选取前20%的样本;或者,从排序结果中选取后20%的样本;或者,基于专家意见选取样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网宁夏电力有限公司吴忠供电公司;国网宁夏电力有限公司,未经国网宁夏电力有限公司吴忠供电公司;国网宁夏电力有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210122374.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置