[发明专利]一种含有缺失数据的数据保距性降维方法在审

专利信息
申请号: 201911059239.5 申请日: 2019-11-01
公开(公告)号: CN110852366A 公开(公告)日: 2020-02-28
发明(设计)人: 从银川;谢鲲;欧阳与点;文吉刚 申请(专利权)人: 湖南大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 长沙正奇专利事务所有限责任公司 43113 代理人: 马强;曾利平
地址: 410082 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 含有 缺失 数据 保距性降维 方法
【说明书】:

发明公开了一种含有缺失数据的数据保距性降维方法,涉及数据处理技术领域。所述数据保距性降维方法,通过缺失数据矩阵使原始数据中的缺失部分不参与自动编码器损失函数的计算,使自动编码器能够处理含有缺失数据的降维,且避免了缺失数据对自动编码器造成的影响;同时借助于自动编码器强大的自动学习能力,能够有效地捕获原始数据之间复杂的非线性关系,再通过约束更新损失函数中编码器的权重矩阵,使降维处理具有保距性,最大程度地使降维后的低维数据保留了原始高维数据的分布信息,便于后续的数据处理,节省了数据处理时间和空间。

技术领域

本发明属于数据处理技术领域,尤其涉及一种基于自动编码器的含有缺失数据的数据保距性降维方法。

背景技术

随着大数据时代的到来和电子设备的普及,产生了海量的高维数据,直接分析和处理高维数据通常需要较大的时间和空间开销,降维作为一种将高维数据映射到低维空间并且保留原始数据信息的算法越发受到人们的青睐。应用降维算法如主成分分析(Principal Components Analysis,简称PCA)或者线性判别分析(Linear DiscriminateAnalysis,简称LDA)将高维数据降维,可以给后续的数据处理带来巨大的便利。但是,现实中产生的数据大多都含有缺失数据,传统的降维方法无法处理这些带有缺失的数据。

保距性降维是指降维后的低维数据在一定程度上保持高维原始数据之间的欧式距离。现有的降维算法都具有保留高维数据信息的能力,但没有显示地保持降维的保距性。通常认为通过保距性降维保持原始数据的欧式距离可以保持原始数据的分布,使得降维后的数据最大程度地保存原始数据样本点之间的信息。尽管传统的保距性降维算法在数据处理过程中广泛使用,但是传统的保距性降维算法只采用线性模型,无法捕捉高维数据之间复杂的非线性信息。且实践中的高维数据不仅具有复杂的非线性关系,通常还会出现数据某些维度数据缺失的情况,传统的保距性降维方法也不能有效处理这些带有缺失的数据。

2006年,Hinton和Salakhutdinov提出“Reducing the Dimensionality of Datawith Neural Networks”,将自动编码器应用于数据降维。这类具有数据降维功能的自动编码器是一种特别的全连接神经网络,其网络结构具有对称结构且假设其输出等于输入。例如,设一个三层自动编码器的输入为输出为其中,f为激活函数,w1,w2为自动编码器的权重矩阵,b1,b2为自动编码器的偏置,s表示批量的大小,自动编码器的损失函数为自动编码器采用后向传播算法训练,在训练过程中更新权重和偏置使得损失函数的值达到最小,通过不断的学习样本数据,能够捕捉到高维数据之间复杂的非线性信息。为了防止自动编码器学习一个恒等函数而不是寻找数据之间的结构信息的情况出现,通常会将自动编码器中隐藏层节点个数限制为远小于输入层节点个数。在训练完成后,使用自动编码器的编码器对数据降维,编码器的输出为降维后的数据。

虽然自动编码器具有学习高维数据复杂非线性结构的能力,但自动编码器无法直接处理有缺失数据。通常遇到缺失数据影响降维,会采用数据填充的方法,在缺失位置填该维特征的均值或者众数,但是填补均值或众数缺乏合理性,会影响降维效果以及之后的数据分析等。同时,自动编码器没有显示地约束降维后保距。

随机投影(Random Projection,简称RP)是一种线性的具有保距性的降维思想,设待降维数据随机矩阵降维后降维前后的数据保距即满足:

(1-α)||xl-xt||≤||cl-ct||≤(1+α)||xl-xt||

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911059239.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top