[发明专利]基于深度集成学习的缺失数据补全方法在审
申请号: | 202010537666.6 | 申请日: | 2020-06-12 |
公开(公告)号: | CN111694830A | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 张成洪;陈刚;肖帅勇 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06K9/62;G06N20/20 |
代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 卢泓宇 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 集成 学习 缺失 数据 方法 | ||
1.一种基于深度集成学习的缺失数据补全方法,其特征在于,包括:
步骤S1,获取原始样本并分离该原始样本中包含缺失值的缺失样本以及数据完整的完整样本,并将所有所述完整样本构成一个训练集;
步骤S2,根据预设的滑动窗口对所述训练集进行特征抽样得到M个特征子集,各个所述特征子集之间拥有重叠特征部分;
步骤S3,基于每个所述特征子集分别训练出相对应的M个深度自编码机;
步骤S4,获取一个所述缺失样本作为当前待预测样本;
步骤S5,基于所述待预测样本中的缺失值获取对应的多个所述深度自编码机作为预测模型,并将所述待预测样本分别输入所述预测模型得到相应多个对应所述缺失值的预测值;
步骤S6,将各个所述预测值进行加权融合得到最终预测值;
步骤S7,基于所述最终预测值对所述当前待预测样本中的缺失值进行补全形成完整样本;
步骤S8,重复所述步骤S4至所述步骤S7直到所有所述缺失样本都被补全。
2.根据权利要求1所述的基于深度集成学习的缺失数据补全方法,其特征在于:
其中,所述加权融合时各个所述预测值所对应的权重为相应所述深度自编码机的训练误差。
3.根据权利要求1所述的基于深度集成学习的缺失数据补全方法,其特征在于:
其中,所述深度自编码机在训练时的目标函数为:
s.t.fq=fm
式中,G为所述特征子集的个数,Pi为第i个所述特征子集中特征的个数,为输入特征到输出特征之间的重构误差,和表示不同所述深度自编码机输出的预测特征,W代表特征窗口大小,S代表移动步长,W/S代表每个特征被重复采样的次数,α为所述重构误差以及所述预测特征之间误差的调节参数。
4.根据权利要求1所述的基于深度集成学习的缺失数据补全方法,其特征在于:
其中,所述原始样本为数字化的特征矩阵,
当分离所述特征矩阵的所述缺失样本以及所述完整样本时,从所述特征矩阵第一行开始遍历,将存在缺失值的行作为所述缺失样本,将不存在缺失值的行作为所述完整样本。
5.根据权利要求1所述的基于深度集成学习的缺失数据补全方法,其特征在于:
其中,当基于所述待预测样本中的缺失值获取对应的多个所述预测模型时,根据所述缺失值对应的特征匹配出相应的多个包含所述缺失值对应的特征的所述特征子集作为匹配子集,并获取各个所述匹配子集所对应的所述深度自编码机作为所述预测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010537666.6/1.html,转载请声明来源钻瓜专利网。