[发明专利]缺失值处理方式的确定方法及装置在审
申请号: | 201810827163.5 | 申请日: | 2018-07-25 |
公开(公告)号: | CN110766030A | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 周婧 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 11240 北京康信知识产权代理有限责任公司 | 代理人: | 赵囡囡;董文倩 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征列 处理方式 训练结果 更新结果 填充 缺失处理 填充数据 数据列 评估 更新 | ||
本发明公开了一种缺失值处理方式的确定方法及装置。其中,该方法包括:获取待填充的数据;对于数据中的每个特征列,根据预先得到的对应该特征列的多个训练结果的评估数值,确定该特征列的缺失值处理方式;其中,特征列是根据数据中各个数据列的数值缺失情况确定的,各个特征列的多个训练结果的评估数值通过以下方式获得:对于每个特征列,按照多个缺失值处理方式更新该特征列,得到多个更新结果;针对每个特征列的多个更新结果分别进行训练,得到训练结果。本发明能够找到各个特征列对应的最佳缺失处理方式,为如何填充数据找到更加合理的填充方案,有助于训练出更优的模型。
技术领域
本发明涉及数据处理领域,具体而言,涉及一种缺失值处理方式的确定方法及装置。
背景技术
机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。而利用机器学习得到分类模型需要一个不断地利用用户数据进行训练的过程。在实际进行用户数据的采集时,会由于各种原因导致用于机器学习的用户数据普遍存在缺失值,而存在缺失值的用户数据会影响分类模型的效果,所以一般在模型训练模型前,都会采用某种方式处理缺失值,比如,过滤掉存在缺失值的数据行,或者,使用某一数值填充缺失值(每列使用同一数值,不同列之间使用不同的值)。但是,实际上,即使是按照某一种方式进行缺失值处理,也并不保证这个处理方式可以让模型的效果更好,所以不能简单的选择某一种缺失值处理方案。
针对上述相关技术中在用于进行分类模型训练的用户数据中存在的缺失值的情况下,对缺失值的处理方式比较单一,使用处理后的缺失值无法保证训练出来的模型的可靠性的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种缺失值处理方式的确定方法及装置,以至少解决缺失值的处理方式比较单一,使用处理后的数据无法保证训练出来的模型的可靠性的技术问题。
根据本发明实施例的一个方面,提供了一种缺失值处理方式的确定方法,包括:获取待填充的数据;对于所述数据中的每个特征列,根据预先得到的对应该特征列的多个训练结果的评估数值,确定该特征列的缺失值处理方式;其中,所述特征列是根据所述数据中各个数据列的数值缺失情况确定的,各个特征列的多个训练结果的评估数值通过以下方式获得:对于每个特征列,按照多个缺失值处理方式更新该特征列,得到多个更新结果;针对每个特征列的多个更新结果分别进行训练,得到训练结果,其中,每个特征列的训练结果包括:对该特征列的所述多个更新后的特征列进行训练得到的多个分类模型,对所述多个分类模型进行评估的评估数值。
可选的,在获取待填充的数据之前,上述缺失值处理方式的确定方法还包括:预先确定所述数据中存在缺失值的数据列的缺失比例,其中,所述缺失比例是所述数据列中的缺失值的数量与所述数据列中包含的数据总量的比值;将所述缺失比例小于预定缺失比例的数据列确定为特征列。
可选的,对于每个特征列,按照多个缺失值处理方式更新该特征列包括以下至少之一:采用过滤掉所述每个特征列中的缺失值所在的数据行的方式,更新所述每个特征列;采用预定数值填充所述每个特征列中的缺失值的方式,更新所述每个特征列。
可选的,所述预定数值为以下至少之一:预设常数,所述特征列中非缺失值的平均数,所述特征列中非缺失值的中位数,所述特征列中非缺失值的众数。
可选的,针对每个特征列的多个更新结果分别进行训练,得到训练结果包括:将每个特征列的多个更新结果输入到随机森林算法;获取经所述随机森林算法对每个特征列的多个更新结果进行训练后,得到的训练结果。
根据本发明实施例的另外一个方面,还提供了一种数据填充方法,用于基于上述缺失值处理方式的确定方法所确定的各个特征列对应的缺失处理方式对所述数据进行填充。
根据本发明实施例的另外一个方面,还提供了一种分类模型的训练方法,用于利用上述的数据填充方法所填充后的数据对分类模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810827163.5/2.html,转载请声明来源钻瓜专利网。