[发明专利]一种含有缺失数据的数据保距性降维方法在审
申请号: | 201911059239.5 | 申请日: | 2019-11-01 |
公开(公告)号: | CN110852366A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 从银川;谢鲲;欧阳与点;文吉刚 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 长沙正奇专利事务所有限责任公司 43113 | 代理人: | 马强;曾利平 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 含有 缺失 数据 保距性降维 方法 | ||
本发明公开了一种含有缺失数据的数据保距性降维方法,涉及数据处理技术领域。所述数据保距性降维方法,通过缺失数据矩阵使原始数据中的缺失部分不参与自动编码器损失函数的计算,使自动编码器能够处理含有缺失数据的降维,且避免了缺失数据对自动编码器造成的影响;同时借助于自动编码器强大的自动学习能力,能够有效地捕获原始数据之间复杂的非线性关系,再通过约束更新损失函数中编码器的权重矩阵,使降维处理具有保距性,最大程度地使降维后的低维数据保留了原始高维数据的分布信息,便于后续的数据处理,节省了数据处理时间和空间。
技术领域
本发明属于数据处理技术领域,尤其涉及一种基于自动编码器的含有缺失数据的数据保距性降维方法。
背景技术
随着大数据时代的到来和电子设备的普及,产生了海量的高维数据,直接分析和处理高维数据通常需要较大的时间和空间开销,降维作为一种将高维数据映射到低维空间并且保留原始数据信息的算法越发受到人们的青睐。应用降维算法如主成分分析(Principal Components Analysis,简称PCA)或者线性判别分析(Linear DiscriminateAnalysis,简称LDA)将高维数据降维,可以给后续的数据处理带来巨大的便利。但是,现实中产生的数据大多都含有缺失数据,传统的降维方法无法处理这些带有缺失的数据。
保距性降维是指降维后的低维数据在一定程度上保持高维原始数据之间的欧式距离。现有的降维算法都具有保留高维数据信息的能力,但没有显示地保持降维的保距性。通常认为通过保距性降维保持原始数据的欧式距离可以保持原始数据的分布,使得降维后的数据最大程度地保存原始数据样本点之间的信息。尽管传统的保距性降维算法在数据处理过程中广泛使用,但是传统的保距性降维算法只采用线性模型,无法捕捉高维数据之间复杂的非线性信息。且实践中的高维数据不仅具有复杂的非线性关系,通常还会出现数据某些维度数据缺失的情况,传统的保距性降维方法也不能有效处理这些带有缺失的数据。
2006年,Hinton和Salakhutdinov提出“Reducing the Dimensionality of Datawith Neural Networks”,将自动编码器应用于数据降维。这类具有数据降维功能的自动编码器是一种特别的全连接神经网络,其网络结构具有对称结构且假设其输出等于输入。例如,设一个三层自动编码器的输入为输出为其中,f为激活函数,w1,w2为自动编码器的权重矩阵,b1,b2为自动编码器的偏置,s表示批量的大小,自动编码器的损失函数为自动编码器采用后向传播算法训练,在训练过程中更新权重和偏置使得损失函数的值达到最小,通过不断的学习样本数据,能够捕捉到高维数据之间复杂的非线性信息。为了防止自动编码器学习一个恒等函数而不是寻找数据之间的结构信息的情况出现,通常会将自动编码器中隐藏层节点个数限制为远小于输入层节点个数。在训练完成后,使用自动编码器的编码器对数据降维,编码器的输出为降维后的数据。
虽然自动编码器具有学习高维数据复杂非线性结构的能力,但自动编码器无法直接处理有缺失数据。通常遇到缺失数据影响降维,会采用数据填充的方法,在缺失位置填该维特征的均值或者众数,但是填补均值或众数缺乏合理性,会影响降维效果以及之后的数据分析等。同时,自动编码器没有显示地约束降维后保距。
随机投影(Random Projection,简称RP)是一种线性的具有保距性的降维思想,设待降维数据随机矩阵降维后降维前后的数据保距即满足:
(1-α)||xl-xt||≤||cl-ct||≤(1+α)||xl-xt||
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911059239.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:小型移动安全检测设备
- 下一篇:一种腰带式防抖动胰岛素注射器
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置