[发明专利]分析数据质量方法在审
申请号: | 201810628753.5 | 申请日: | 2018-06-19 |
公开(公告)号: | CN109086299A | 公开(公告)日: | 2018-12-25 |
发明(设计)人: | 张涵帅 | 申请(专利权)人: | 北京至信普林科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100094 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分析 数据样本 重要性分析 分析数据 可视方式 输出处理 数据分布 特征筛选 获取数据 样本 | ||
本发明公开了一种分析数据质量方法及方法,所述方法包括:获取数据样本;对所述数据样本进行处理,并以可视方式输出处理结果;其中所述处理包括以下至少一种操作:缺失值分析、特征筛选、异常值分析、数据分布分析和/或重要性分析。本发明实施例的技术方案可以对所述数据样本所有属性进行以下分析:其中所述处理包括以下至少一种操作:缺失值分析、特征筛选、异常值分析、数据分布分析和/或重要性分析,然后输以可视方式输出处理结果;从而避免对数据样本单个属性进行分析产生重复性的代码的问题。
技术领域
本发明涉及大数据领域,特别涉及一种分析数据质量的方法及装置。
背景技术
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据挖掘是一种技术,将传统的数据分析方法与处理大量数据的复杂算法相结合(图1),从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用信息和知识的过程。但是在数据分析和数据挖掘之前,我们首先要做的就是对数据进行预处理,将那些所谓的“脏数据”给去除掉,提高数据分析和数据挖掘的准确性和有效性,也就是说需要事先对数据进行数据质量分析,然后才能开始数据分析或数据挖掘。只有正确有效的数据质量分析才能挖掘出真正隐藏的信息。否则则会导致很严重的损失。
而且目前流行的数据探索工具或者开源框架往往只能针对数据的单个属性进行操作,数据质量分析人员在处理的时候往往需要写很多重复性的代码。
发明内容
有鉴于此,本发明实施例为解决背景技术中提出的至少一个技术问题,提供至少一种有益的选择。
为了实现上述目的,本发明实施例提供了一种分析数据质量方法,包括:
获取数据样本;
对所述数据样本进行处理,并以可视方式输出处理结果;
其中所述处理包括以下至少一种操作:缺失值分析、特征筛选、异常值分析、数据分布分析和/或重要性分析。
优选地,获取数据样本之后,所述方法还包括:
计算数据样本总数,将计算其中的正样本数量和负样本数量;
调整所述数据样本中正、负样本的比例。
优选地,调整所述数据样本中正、负样本的比例包括:
若所述正、负样本之比小于第一预设值,则对所述数据样本进行以下处理:欠采样或过采样。
优选地,对所述数据样本进行处理包括:
计算所述数据样本的缺失特征的数量和比例;
若所述特征缺失的数量大于第二预设值,则删除对应的特征;
若所述特征中空值对应的数据样本缺失比例小于第三预设值,则删除对应的样本;
否则,对所述数据样本中的特征进行均值或中位数填充;
输出缺失值分析结果,其中所述结果中包含了预设数量的存在缺失特征的数据样本。
优选地,对所述数据样本进行处理包括:
删除所述数据样本中的的非数值型特征。
优选地,对所述数据样本进行处理包括:
判断所述数据样本的每个属性的取值范围;
若数据样本的特征所占比例大于第四预设值,则删除对应的该特征;
若存在异常的特征对应的数据样本异常比例小点第五预设值,则删除该样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京至信普林科技有限公司,未经北京至信普林科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810628753.5/2.html,转载请声明来源钻瓜专利网。