[发明专利]基于深度集成学习的缺失数据补全方法在审
申请号: | 202010537666.6 | 申请日: | 2020-06-12 |
公开(公告)号: | CN111694830A | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 张成洪;陈刚;肖帅勇 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06K9/62;G06N20/20 |
代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 卢泓宇 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 集成 学习 缺失 数据 方法 | ||
本发明提供一种基于深度集成学习的缺失数据补全方法,其特征在于,包括:步骤S1,获取原始样本并分离该原始样本中包含缺失值的缺失样本以及数据完整的完整样本,并将所有完整样本构成一个训练集;步骤S2,对训练集进行特征抽样得到多个特征子集;步骤S3,基于每个特征子集训练一个对应的深度自编码机;步骤S4,获取一个缺失样本作为当前待预测样本;步骤S5,基于待预测样本中的缺失值获取对应的深度自编码机并输入深度自编码机得到多个缺失值的预测值;步骤S6,将各个预测值进行加权融合得到最终预测值;步骤S7,基于最终预测值对当前待预测样本中的缺失值进行补全形成完整样本;步骤S8,重复步骤S4至步骤S7直到所有缺失样本都被补全。
技术领域
本发明属于数据建模领域,涉及一种基于深度集成学习的缺失数 据补全方法。
背景技术
在利用数据建模时,数据通常会因为意外丢失、采集失误等原因 而存在部分缺失,但是数据又很珍贵,直接丢弃缺失数据损失太大, 所以往往会对其进行缺失值填补后,再度参与到建模过程中。
例如,银行对企业的信用评级研究中,不良贷款的(黑名单)企 业样本是极其珍贵的,因为大部分企业信用良好,银行通过研究黑名 单企业就能挖掘出黑名单企业的内在模式(共性、特点),进而可以 减少不良贷款的发生。一黑名单企业,其在大部分字段(特征)下的 值都是完整的,但是某月的营业额数据缺失,此时对其进行填补后即 可再次利用。
传统缺失值补全方法,通常K近邻补全、平均值补全等。例如, K近邻补全方法会计算上述黑名单企业与其他企业在非缺失字段分 布下的相似度,取出最相似的K个邻居样本,看看他们在缺失字段下 的取值是什么,作为填补值;平均值填补方法会计算所有其他样本(在 该字段下的值为非空)在该字段下的平均值,作为填补值。
在上述案例中,K均值和平均值都没有考虑该样本在其他月份的 营业额与缺失月份的之间的分布联系。这两中方法都忽略了变量分布 信息,即变量之间的相关关系,因此最终导致填补错误,进一步也就 容易影响数据的准确性。
发明内容
为解决上述问题,提供一种基于深度集成学习的缺失值补全方法, 该方法捕获了变量在高维非线性空间的分布关系,使得对缺失值的预 测更加准确。本发明采用了如下技术方案:
本发明提供了一种基于深度集成学习的缺失数据补全方法,其特 征在于,包括:步骤S1,获取原始样本并分离该原始样本中包含缺失 值的缺失样本以及数据完整的完整样本,并将所有完整样本构成一个 训练集;步骤S2,对训练集进行特征抽样得到多个特征子集;步骤 S3,基于每个特征子集训练一个对应的深度自编码机;步骤S4,获取 一个缺失样本作为当前待预测样本;步骤S5,基于待预测样本中的 缺失值获取对应的深度自编码机并输入深度自编码机得到多个缺失 值的预测值;步骤S6,将各个预测值进行加权融合得到最终预测值; 步骤S7,基于最终预测值对当前待预测样本中的缺失值进行补全形 成完整样本;步骤S8,重复步骤S4至步骤S7直到所有缺失样本都 被补全。
本发明提供的基于深度集成学习的缺失数据补全方法,还可以具 有这样的技术特征,其中,加权融合时各个预测值所对应的权重为相 应深度自编码机的训练误差。
本发明提供的基于深度集成学习的缺失数据补全方法,还可以具 有这样的技术特征,其中,深度自编码机在训练时的目标函数为:
s.t.fq=fm
式中,G为特征子集的个数,Pi为第i个特征子集中特征的个数, 为输入特征到输出特征之间的重构误差,和表示不同深 度自编码机输出的预测特征,W代表特征窗口大小,S代表移动步长, W/S代表每个特征被重复采样的次数,α为重构误差以及预测特征的 调节参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010537666.6/2.html,转载请声明来源钻瓜专利网。