[发明专利]一种用于人工智能数据分析的大数据高保真可视化方法有效
申请号: | 201910811776.4 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110532300B | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 唐波;汤恩义;王林章;李宣东 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/248;G06F16/54;G06F16/55;G16H10/60 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 沈廉 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 人工智能 数据 分析 高保真 可视化 方法 | ||
本发明公开了一种用于人工智能数据分析的大数据高保真可视化方法。针对大数据量、高维度的向量型数据集提供可视化高保真展示,在人工智能领域中用于分析数据的内部规律与数据特征。为了保证分析效果的准确性,本发明引入了高保真可视化技术,该技术在保留了原始数据可视化特征的基础上缩减了实际可视化的操作数据规模,使可视化平台既能易于操作、高效运行,又能准确还原原始数据效果。本发明通过引入基于频数分布的高保真双向抽样算法来实现这样的可视化技术,从而使高维度大数据的可视化在较低配置的通用硬件平台上得以有效实施。本发明属于人工智能和数据科学领域。
技术领域
本发明属于人工智能与数据科学领域,涉及对大数据量、高维度向量型数据集的高保真可视化渲染技术,使可视化平台既能准确还原原始数据,又能高效运行、易于操作,为用户观察原始数据的内部规律和数据特征提供帮助。
背景技术
可视化是一种通过图形表达数据的方法,在人工智能和数据科学领域被广泛使用。当前的实际数据往往具有大数据量、高维度等特点,因而在低配置的硬件平台上实施具有一定困难,本发明基于高保真抽样的思路来解决这一问题。
现有通用的计算机硬件环境下,若将高维大数据的所有内容加载到单个客户端的内存以实现可视化基本不可能,需要通过行抽样与降维来实现。而使用分布式云加载的方式将会失去可视化过程中的一些特性,包括本地流畅性等等,也同样需要通过行抽样与降维来满足这些特性。现在流行的行抽样方法有直方图、聚类、随机抽样等,降维方法有主成分分析、属性子集选择等,但是这些方法对于大数据量、高维度的向量型数据集均不能在抽样与降维过程中保障可视化的保真性质。具体来说:1.直方图通过扩大统计范围使处理后的数据具有较粗的粒度,从而可能丢失高保真过程的关键信息。2.聚类方法将数据行看成对象,把“相似”的对象聚到同一个簇内,在数据规约上用数据的簇来代表替换实际数据,但由于聚类算法没有完全按照可视化要求来生成簇,从而不能保证可视化的保真性。3.随机抽样分为无放回随机抽样和有放回随机抽样,这会造成显示结果具有一定的随机性,难以保证高保真可视化的要求。4.主成分分析又称PCA,这种方法是通过维度变换来实现降维的,很难重构变换后的新维度和原始维度的直接关系,因此可视化时难以表示原始数据的高保真信息。5.属性子集选择的降维策略是通过删除冗余的属性(或维)来减少维度,这可能会将原始数据的疏密程度进行改变,从而很难达到大数据高保真可视化的目的。
根据《数据挖掘:概念与技术(原书第三版)》(ISBN:978-7-111-39140-1)中第2章的第3节数据可视化介绍,数据可视化旨在通过图形清晰有效地表达数据。所谓清晰有效地表达数据实际上就是要求可视化图形能够反映出原始数据的内部规律和数据特征,让用户通过图形就能观察到原始数据内部的细节。具体来说就是在当前分辨率条件下,可视化图形要能够在空间的疏密程度上与原始数据保持一致,能够客观显示原始数据的边界值,能够准确刻画原始数据的变化趋势,这也就是本发明所述高保真的涵义。例如,对于平行坐标图而言,如果该图在对应分辨率条件下将原始数据各维度的极值(包括极大值和极小值)、数据行的变化趋势、以及原始数据的疏密分布均准确表达,即称该图形实现了高保真可视化。
发明内容
技术问题:本发明提出了一种用于人工智能数据分析的大数据高保真可视化方法,该方法通过可视化平台对大数据量、高维度的向量型数据集进行高保真可视化,为用户观察原始数据的内部规律和数据特征提供帮助。
技术方案:本发明的一种用于人工智能数据分析的大数据高保真可视化方法,针对大数据量、高维度的向量型数据集引入了基于频数分布的双向抽样算法,保证在设定分辨率下的可视化图形与原始数据一致,即原始大数据能获得高保真的展示;所述的双向抽样算法是指,对于数据行方向采用了保持相对子空间的高保真抽样算法,对于维度方向采用了粘滞邻域极值的高保真抽样算法;详细步骤为:
1-1)、数据行方向的保持相对子区间高保真抽样算法:针对当前分辨率,对可视化图形中任意一个可分辨子空间,保持其相对的数据比例,从而使空间中的数据疏密程度与原始数据一致;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910811776.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置