[发明专利]分布式异构数据源主成份分析系统在审
申请号: | 201811201027.1 | 申请日: | 2018-10-15 |
公开(公告)号: | CN109359150A | 公开(公告)日: | 2019-02-19 |
发明(设计)人: | 黄刚;张进;王菲 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/27;G06F16/215 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式异构数据 主成份 分析系统 分析 原始数据集 分析单元 判断单元 异构数据 转换单元 属性列 转换 | ||
一种分布式异构数据源主成份分析系统,所述系统包括:转换单元,适于将原始数据集转换为对应的分布式异构数据集;所述分布式异构数据集中的每个异构数据集分别具有对应的属性列数;判断单元,适于判断是否能够对所述分布式异构数据集进行主成份分析;分析单元,适于当确定能够对所述分布式异构数据集进行主成份分析时,对所述分布式异构数据集执行主成份分析,得到对应的分析结果。上述的方案,可以提高分布式异构数据源主成份分析的准确性和效率。
技术领域
本发明属于数据分析技术领域,特别是涉及一种分布式异构数据源主成 份分析系统。
背景技术
异构数据集是分布在不同系统互不交互的的数据源,每个应用系统的数 据源可抽象为多个数据集。数据集是具有相同主题的数据或信息的集合,可 规划为数据库,数据中的表单或集合。为实现数据的共享和透明访问,用户 普遍将数据集存储在异构分布式数据库(DBMS),用数据处理语言访问数据 库。由于DBMS缺乏统计性能和高维数据集性质,通常需要将数据集从异构 数据库中导出到客户端机器,以执行外部软件包分析。而通过不同数据库语 句扩展统计功能,可以消除数据导出和客户端开销。通常,异构数据库可以 采用相关分析和主成分分析(PCA)进行统计分析数据集,相关矩阵用作PCA 的输入,达到降低维数的目的。
在实际生产生活中,不同部门的数据分别存放在相应部门系统平台上, 而且每个系统平台数据的语法语义可能不同,这是数据集成的一个瓶颈。当 要提取数据主成分时,必须要收集每个平台的数据,再通过第三方平台将数 据统一集成到一个系统平台才可以获取到主成分。
面对分布式数据集,传统PCA算法需要花销大量时间分析数据,需要对 DBMS中的数据集本进行转换,以克服最大列数限制,故存在着分析效率低 下且准确性差的问题。
发明内容
本发明解决的技术问题是如何提高分布式异构数据源主成份分析的准确 性和效率。
为了达到上述目的,本发明提供一种分布式异构数据源主成份分析系统, 所述系统包括:
转换单元,适于将原始数据集转换为对应的分布式异构数据集;所述分 布式异构数据集中的每个异构数据集分别具有对应的属性列数;
判断单元,适于判断是否能够对所述分布式异构数据集进行主成份分析;
分析单元,适于当确定能够对所述分布式异构数据集进行主成份分析时, 对所述分布式异构数据集执行主成份分析,得到对应的分析结果。
可选地,所述转换单元,适于对所述原始数据集中的数据依次执行语义 映射集成、格式映射集成和结果映射集成,得到对应的分布式异构数据集。
可选地,所述判断单元,适于对所述分布式异构数据集中的每个异构数 据集分别执行KMO检验,得到对应的KMO检验系数;对所述分布式异构数 据集中的每个异构数据集分别执行巴特利球体检验,得到对应的巴特利球体 检验P值;当所述分布式异构数据集中的每个异构数据集对应的KMO检验系 数和巴特利球体检验P值均大于对应的阈值时,确定能够对所述分布式异构 数据集进行主成份分析。
可选地,所述分析单元,适于计算所述分布式异构数据集中的本地异构 数据集与非本地异构数据集之间的组合协方差矩阵;基于计算得出的组合协 方差矩阵,计算所述非本地异构数据集对应的误差分量;当确定所述非本地 异构数据集对应的误差分量大于所述非本地异构数据集的估算值时,将所述 非本地异构数据集进行特征值优化,直至优化后的非本地异构数据集对应的 误差分量小于优化后的非本地异构数据集的估算值;当优化后的非本地异构 数据集对应的误差分量小于优化后的非本地异构数据集的估算值时,计算所 述本地异构数据集与优化后的非本地异构数据集之间的组合协方差矩阵,作 为所述分布式异构数据集的主成份分析结果。
可选地,所述分析单元,适于采用如下的公式计算所述分布式异构数据 集中的本地异构数据集与非本地异构数据集之间的组合协方差矩阵:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811201027.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模拟测试方法及相关装置
- 下一篇:一种船体分段物流大数据可视化平台