[发明专利]数据降维方法及装置在审
申请号: | 201811343950.9 | 申请日: | 2018-11-13 |
公开(公告)号: | CN109558899A | 公开(公告)日: | 2019-04-02 |
发明(设计)人: | 杨昊;郑晓东;李劲松;魏超 | 申请(专利权)人: | 中国石油天然气股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 王涛;任默闻 |
地址: | 100007 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 高维数据 样本点 低维 数据降维 数据集 距离关系 构建 维数 目标函数优化 处理数据 降维处理 目标函数 全局特征 数据集中 优化调整 输出 | ||
本发明提供了一种数据降维方法及装置,该方法包括:构建用于数据降维的初始神经网络,并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出,所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数;基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数;根据所述神经网络目标函数优化调整所述初始神经网络的参数;利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。通过上述方案得到的低维数据集能够保持高维数据集的全局特征。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据降维方法及装置。
背景技术
数据降维是指将高维数据集降低维度至低维数据集,并保证生成的低维数据集与原始的高维数据集所包含的主要信息是相似的。现实中,很多待处理和分析的数据集往往数据量很大,并且维度很高,比如,在地震勘探中,为了利用反射地震波形识别油气发育位置,需要处理和分析的数据集可能包含上百至上千万个样点,每个样点的维度可能达到100维。数据降维可以降低高维数据集的时间或空间复杂度,节省数据集处理的计算开销,去掉数据集中的无效信息和冗余信息,凸显数据集中的有效信息,实现高维数据集可视化,简化数据集分析难度。
现有的数据降维方法可以分为线性方法和非线性方法两大类:线性方法中最经典的方法是主分量分析(PCA),PCA利用线性代数中均方误差准则下失真最小的K-L变换将原空间数据集变换到特征向量空间,但其降维结果往往具有一定的模糊性,不如原始样本完整,贡献率小、却可能将含有样本差异重要信息的主成分直接舍弃,造成信息丢失;非线性方法的代表方法有:核PCA方法、局部线性嵌入法(LLE)、等距映射法(ISOMap)等,其中,核PCA方法的降维效果依赖于核函数的选取,LLE与ISOMap都假设数据集具有流形结构,不能适应所有数据集类型。
以上方法存在不足:①都涉及矩阵运算,无法适应大数据集降维;②无法记忆数据集的特征,一旦数据集中加入新的样本,就需要重新计算;③部分方法的降维结果不能很好地保持高维数据集的全局样本点距离关系。
发明内容
有鉴于此,本发明提供了一种数据降维方法及装置,以解决现有技术中的一项或多项缺失。
为了达到上述目的,本发明采用以下方案实现:
在本发明一个实施例中,数据降维方法,包括:
构建用于数据降维的初始神经网络,并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出,所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数;
基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数;
根据所述神经网络目标函数优化调整所述初始神经网络的参数;
利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。
在本发明一个实施例中,根据所述神经网络目标函数优化调整所述初始神经网络的参数,包括:
根据所述神经网络目标函数,利用随机梯度下降法优化调整所述初始神经网络的参数。
在本发明一个实施例中,根据所述神经网络目标函数,利用随机梯度下降法优化调整所述初始神经网络的参数,包括:
从所述高维数据集中随机抽取设定数量的样本点;
将随机抽取的所述设定数量的样本点输入至所述初始神经网络,并输出所述低维数据集的样本点;
基于随机抽取的所述设定数量的样本点和输出的所述低维数据集的样本点计算所述神经网络目标函数的值;
根据所述神经网络目标函数的值利用随机梯度下降法优化调整所述初始神经网络的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油天然气股份有限公司,未经中国石油天然气股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811343950.9/2.html,转载请声明来源钻瓜专利网。