[发明专利]缺失值处理方式的确定方法及装置在审
申请号: | 201810827163.5 | 申请日: | 2018-07-25 |
公开(公告)号: | CN110766030A | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 周婧 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 11240 北京康信知识产权代理有限责任公司 | 代理人: | 赵囡囡;董文倩 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征列 处理方式 训练结果 更新结果 填充 缺失处理 填充数据 数据列 评估 更新 | ||
1.一种缺失值处理方式的确定方法,其特征在于,包括:
获取待填充的数据;
对于所述数据中的每个特征列,根据预先得到的对应该特征列的多个训练结果的评估数值,确定该特征列的缺失值处理方式;
其中,所述特征列是根据所述数据中各个数据列的数值缺失情况确定的,各个特征列的多个训练结果的评估数值通过以下方式获得:
对于每个特征列,按照多个缺失值处理方式更新该特征列,得到多个更新结果;
针对每个特征列的多个更新结果分别进行训练,得到训练结果,其中,每个特征列的训练结果包括:对该特征列的所述多个更新后的特征列进行训练得到的多个分类模型,对所述多个分类模型进行评估的评估数值。
2.根据权利要求1所述的方法,其特征在于,在获取待填充的数据之前,还包括:
预先确定所述数据中存在缺失值的数据列的缺失比例,其中,所述缺失比例是所述数据列中的缺失值的数量与所述数据列中包含的数据总量的比值;
将所述缺失比例小于预定缺失比例的数据列确定为特征列。
3.根据权利要求1所述的方法,其特征在于,对于每个特征列,按照多个缺失值处理方式更新该特征列包括以下至少之一:
采用过滤掉所述每个特征列中的缺失值所在的数据行的方式,更新所述每个特征列;
采用预定数值填充所述每个特征列中的缺失值的方式,更新所述每个特征列。
4.根据权利要求3所述的方法,其特征在于,所述预定数值为以下至少之一:预设常数,所述特征列中非缺失值的平均数,所述特征列中非缺失值的中位数,所述特征列中非缺失值的众数。
5.根据权利要求1所述的方法,其特征在于,针对每个特征列的多个更新结果分别进行训练,得到训练结果包括:
将每个特征列的多个更新结果输入到随机森林算法;
获取经所述随机森林算法对每个特征列的多个更新结果进行训练后,得到的训练结果。
6.一种数据填充方法,其特征在于,用于基于根据权利要求1至5中任一项所述的缺失值处理方式的确定方法所确定的各个特征列对应的缺失处理方式对所述数据进行填充。
7.一种分类模型的训练方法,其特征在于,用于利用根据权利要求6所述的数据填充方法所填充后的数据对分类模型进行训练。
8.一种缺失值处理方式的确定装置,其特征在于,包括:
第一获取单元,用于获取待填充的数据;
第一确定单元,用于对于所述数据中的每个特征列,根据预先得到的对应该特征列的多个训练结果的评估数值,确定该特征列的缺失值处理方式;
其中,所述第一确定单元包括:
第一获取模块,用于对于每个特征列,按照多个缺失值处理方式更新该特征列,得到多个更新结果;
第二获取模块,用于针对每个特征列的多个更新结果分别进行训练,得到训练结果,其中,每个特征列的训练结果包括:对该特征列的所述多个更新后的特征列进行训练得到的多个分类模型,对所述多个分类模型进行评估的评估数值。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至5中任意一项所述的缺失值处理方式的确定方法,权利要求6中所述的数据填充方法,以及权利要求7中所述的分类模型的训练方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序执行权利要求1至5中任意一项所述的缺失值处理方式的确定方法,权利要求6中所述的数据填充方法,以及权利要求7中所述的分类模型的训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810827163.5/1.html,转载请声明来源钻瓜专利网。