[发明专利]数据处理方法、装置、设备、介质和程序产品在审
申请号: | 202211043758.4 | 申请日: | 2022-08-29 |
公开(公告)号: | CN115687907A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 李熠;杨晓然;邬子庄 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F18/2135 | 分类号: | G06F18/2135;G06F18/23;G06F18/241 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 张琛 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 设备 介质 程序 产品 | ||
本公开提供了一种数据处理方法,可以应用于大数据技术领域。该方法包括:获取原始数据,对所述原始数据进行预处理,获取待拆分视图数据,其中,所述待拆分视图数据为单视图数据;基于主成分分析法对所述待拆分视图数据按照维度进行视图拆分,将所述待拆分视图数据转化为多视图数据;以及基于所述多视图数据利用单视图算法或多视图算法建立模型,其中,所述单视图数据为高维数据,所述高维数据中的维度与实体特征相对应;所述多视图数据为分配于多个视图的数据,其中,每个视图中的数据的维度数量相同或不同,各视图中的数据的维度数量的聚合等同于单视图数据的维度。本公开还提供了一种数据处理装置、设备、存储介质和程序产品。
技术领域
本公开涉及大数据技术领域,具体地涉及一种数据处理方法、装置、设备、介质和程序产品。
背景技术
随着大数据技术的飞速发展,大数据建模在金融,商业,政务等多个技术领域有着广泛的应用。大数据建模的本质是在数据特征空间中抽取数据有用信息并用于分类回归等目的。从数据样本的类型来划分,数据建模模型可以分为单视图和多视图两类方法。单视图是指样本全部从同一种数据分布采样,是建模问题研究的基础,多视图则是指样本从两个或者以上不同来源采样,样本的分布信息更为复杂,但包含信息更加丰富,信息间结构体现更加明显。
在利用单视图数据进行建模时,由于应用场景复杂度的不断提高,大量用于建模的单视图数据都是高维数据。在利用高维数据进行单视图建模的过程中,由于维度过高,容易引发特征之间冗余率高、存在休斯现象等问题。且在数据维度较高时,数据结构信息较难挖掘。传统的降维处理方法在降低维度后会丢失信息。如何在利用单视图数据进行建模时降低特征冗余率,减少休斯现象的发生,同时不丢失原始数据信息,更为充分的挖掘数据间的关联是亟待解决的问题。
发明内容
鉴于上述问题,本公开的实施例提供了一种提高单视图数据建模数据利用率,降低特征冗余率,减少休斯现象的数据处理方法、装置、设备、介质和程序产品。
根据本公开的第一个方面,提供了一种数据处理方法,包括:获取原始数据,对所述原始数据进行预处理,获取待拆分视图数据,其中,所述待拆分视图数据为单视图数据;基于主成分分析法对所述待拆分视图数据按照维度进行视图拆分,将所述待拆分视图数据转化为多视图数据;以及基于所述多视图数据利用单视图算法或多视图算法建立模型,其中,所述单视图数据为高维数据,所述高维数据中的维度与实体特征相对应;所述多视图数据为分配于多个视图的数据,其中,每个视图中的数据的维度数量相同或不同,各视图中的数据的维度数量的聚合等同于单视图数据的维度。
根据本公开的实施例,所述基于主成分分析法对所述待拆分视图数据按照维度进行视图拆分,将所述待拆分视图数据转化为多视图数据的步骤包括维度拆分的步骤,其中,所述维度拆分的步骤包括:构造主成分分析分类指示函数,其中,所述主成分分析分类指示函数基于特征分类指示矩阵构建,所述特征分类指示矩阵为n×k的矩阵,其中,n为待拆分数据的维度,k为预设的视图拆分个数;求解所述主成分分析分类指示函数的最优化问题,获取求解结果,其中,所述求解结果包括特征分类指示矩阵的权重分配结果,所述特征分类指示矩阵的权重分配结果为与所述视图拆分个数对应的最小特征值对应特征向量构成的矩阵;以及基于所述特征分类指示矩阵的权重分配结果对所述待拆分视图数据的维度进行视图拆分,获取数据维度拆分结果,其中,所述待拆分视图数据的维度为m,其中,将第i个数据维度进行拆分包括:以及将第i个数据维度拆分至特征分类指示矩阵中与所述第i个数据维度对应的特征向量中最大特征值对应的视图,其中,i∈[1,m]。
根据本公开的实施例,在获取m个维度数据的维度拆分结果后,所述方法还包括:将所述待拆分视图数据按照维度拆分结果进行视图数据分配,获取所述多视图数据。
根据本公开的实施例,预设的视图拆分个数基于自动聚类算法或相似度算法中的一种对待拆分数据维度进行处理得到。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211043758.4/2.html,转载请声明来源钻瓜专利网。