[发明专利]高维数据集的数据可视化分析方法及装置有效
申请号: | 201610951462.0 | 申请日: | 2016-10-26 |
公开(公告)号: | CN107992495B | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 周力 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/90 | 分类号: | G06F16/90 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 朱雅男 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 可视化 分析 方法 装置 | ||
本发明公开了一种高维数据集的数据可视化分析方法及装置,属于数据分析领域。该高维数据集的数据可视化分析方法包括:获取n维数据集,n维数据集中包括训练集和测试集,训练集中训练数据点的总量大于测试集中测试数据点的总量,n≥2,n为整数;根据各个测试数据点生成各自对应的帕森窗;根据帕森窗计算各个测试数据点对应的概率密度,概率密度用于指示帕森窗内训练数据点的密集程度;根据各个测试数据点对应的概率密度确定n维数据集中数据点的分布情况。本发明实施例在不对n维数据集进行降维处理的前提下确定出数据集的数据分布,保证了数据分析过程的数据精度,避免了对数据集进行降维处理导致数据精度降低,影响数据分析准确性的问题。
技术领域
本发明实施例涉及数据分析领域,特别涉及一种高维数据集的数据可视化分析方法及装置。
背景技术
数据分析是一种从数据集中挖掘数据规律以及数据间关联关系的技术,而确定数据集的数据分布则是数据分析过程中所要解决的重要问题之一。
数据集通常具有多个维度,且不同的维度用于指示不同的属性或特征。比如,网站中注册用户的用户信息所构成的数据集包括性别、年龄、地域等不同维度。对于低维度的数据集,根据数据集中的数据绘制数据点集即可直观了解到数据的分布情况;但是对于高维度的数据集,则难以通过绘制数据点集的方式来确定数据的分布情况。现有技术中,为了实现数据分布可视化,当数据集的维度较高时,需要对数据集进行降维处理。其中,常见的降维处理方式包括低方差滤波、高方差滤波和反向特征消除等等。
在实现本发明实施例的过程中,发明人发现上述技术至少存在以下问题:
在对高维数据集进行降维的过程中,部分维度或部分维度下的数据会被精简,导致数据分析过程中所分析数据的精度降低,影响数据分析结果的准确性。
发明内容
为了解决现有技术中在对高维数据集进行降维的过程中,部分维度或部分维度下的数据会被精简,导致数据分析过程中所分析数据的精度降低,影响数据分析结果准确性的问题,本发明实施例提供了一种高维数据集的数据可视化分析方法及装置。所述技术方案如下:
根据本发明实施例的第一方面,提供一种高维数据集的数据可视化分析方法,该方法包括:
获取n维数据集,n维数据集中包括训练集和测试集,训练集中训练数据点的总量大于测试集中测试数据点的总量,n≥2,n为整数;
根据各个测试数据点生成各自对应的帕森窗;
根据帕森窗计算各个测试数据点对应的概率密度,概率密度用于指示帕森窗内训练数据点的密集程度;
根据各个测试数据点对应的概率密度确定n维数据集中数据点的分布情况。
根据本发明实施例的第二方面,提供一种高维数据集的数据可视化分析装置,该装置包括:
获取模块,用于获取n维数据集,n维数据集中包括训练集和测试集,训练集中训练数据点的总量大于测试集中测试数据点的总量,n≥2,n为整数;
生成模块,用于根据各个测试数据点生成各自对应的帕森窗;
计算模块,用于根据帕森窗计算各个测试数据点对应的概率密度,概率密度用于指示帕森窗内训练数据点的密集程度;
第一确定模块,用于根据各个测试数据点对应的概率密度确定n维数据集中数据点的分布情况。
本发明实施例提供的技术方案带来的有益效果是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610951462.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种节能环保型LED背光源
- 下一篇:一种超薄发光BLU的LED背光源
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置