[发明专利]分析数据质量方法在审
申请号: | 201810628753.5 | 申请日: | 2018-06-19 |
公开(公告)号: | CN109086299A | 公开(公告)日: | 2018-12-25 |
发明(设计)人: | 张涵帅 | 申请(专利权)人: | 北京至信普林科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100094 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分析 数据样本 重要性分析 分析数据 可视方式 输出处理 数据分布 特征筛选 获取数据 样本 | ||
1.一种分析数据质量方法,其特征在于,包括:
获取预分析数据样本;
对所述数据样本进行处理,并以可视方式输出处理结果;其中所述处理包括以下至少一种操作:缺失值分析、特征筛选、异常值分析、数据分布分析和/或重要性分析。
2.根据权利要求1所述的方法,其特征在于,获取预分析数据样本之后,所述方法还包括:
计算数据样本总数,将计算其中的正样本数量和负样本数量;
调整所述数据样本中正、负样本的比例。
3.根据权利要求2所述的方法,其特征在于,调整所述数据样本中正、负样本的比例包括:
若所述正、负样本之比小于第一预设值,则对所述数据样本进行以下处理:欠采样或过采样。
4.根据权利要求1所述的方法,其特征在于,对所述数据样本进行处理包括:
计算所述数据样本的缺失特征的数量和比例;
若所述特征缺失的数量大于第二预设值,则删除对应的特征;
若所述特征中空值对应的数据样本缺失比例小于第三预设值,则删除对应的样本;
否则,对所述数据样本中的特征进行均值或中位数填充;
输出缺失值分析结果,其中所述结果中包含了预设数量的存在缺失特征的数据样本。
5.根据权利要求1所述的方法,其特征在于,对所述数据样本进行处理包括:
删除所述数据样本中的的非数值型特征。
6.根据权利要求4所述的方法,其特征在于,对所述数据样本进行处理包括:
判断所述数据样本的每个属性的取值范围;
若数据样本的特征所占比例大于第四预设值,则删除对应的该特征;
若存在异常的特征对应的数据样本异常比例小点第五预设值,则删除该样本。
7.根据权利要求1所述的方法,其特征在于,所述方法包括:
若所述数据样本是连续型数据样本,则计算所述数据样本的以下至少一种指标:方差、最小值、25%分位数、中位数、75%分位数和/或最大值;然后根据所述至少一种指标绘制所述数据样本的直方图;
若所述数据样本是离散型数据样本,则直接绘制所述数据样本的直方图。
8.根据权利要求1所述的方法,其特征在于,所述方法包括:
将所述数据样本输入预设决策树模型,以使所述预设决策树模型分析所述数据样本属性与目标值属性的关联程度,其中所述关联程度与所述数据样本的重要性成正比;或者,
根据所述数据样本的类型计算所述数据样本所目标值的相关性。
9.一种数据质量分析装置,其特征在于,所述装置包括:
获取模块,配置为获取数据样本;
输出模块,配置为对所述数据样本进行处理,并以可视方式输出处理结果;
其中所述处理包括以下至少一种操作:缺失值分析、特征筛选、异常值分析、数据分布分析和/或重要性分析。
10.根据权利要求9所述的装置,其特征在于,所述方法装置还包括:
计算模块,醒置为计算数据样本总数,将计算其中的正样本数量和负样本数量;
调整模块,配置为调整所述数据样本中正、负样本的比例,
若所述正、负样本之比小于第一预设值,则对所述数据样本进行以下处理:欠采样或过采样。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京至信普林科技有限公司,未经北京至信普林科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810628753.5/1.html,转载请声明来源钻瓜专利网。