[发明专利]一种基于维度投影的多维数据相关性可视分析方法及系统有效
申请号: | 201711260279.7 | 申请日: | 2017-12-04 |
公开(公告)号: | CN108021664B | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 陈谊;张聪;章蓉 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06F16/26 | 分类号: | G06F16/26 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公布了一种基于维度投影的多维数据相关性可视分析方法、系统及应用,属于数据分析与可视化技术领域。包括:建立KNN‑Pearson度量方法计算多维数据集中维度间相关性大小,通过矩阵将多维数据集进行形式化描述和操作,再对数据集维度间相关性进行定量计算,得到多维数据的维度相关性矩阵R;通过对数据维度进行投影展示数据维度之间相关性的可视化方法,将数据维度间相关性进行可视化。多维数据相关性可视分析系统包括:数据预处理模块、维度间相关性计算模块、维度间相关性的矩阵热图可视化模块、多维属性MDS投影模块、多视图可视化与交互模块;并应用于农药残留数据集的可视展示和分析。 | ||
搜索关键词: | 一种 基于 维度 投影 多维 数据 相关性 可视 分析 方法 系统 | ||
【主权项】:
1.一种基于维度投影的多维数据相关性可视分析方法,包括如下步骤:第一步,建立KNN-Pearson度量方法计算多维数据集中维度间相关性大小,通过矩阵将多维数据集进行形式化描述和操作,再对数据集维度间相关性进行定量计算,得到多维数据的维度相关性矩阵R;包括如下步骤:A.数据预处理,构造原始数据集的特征向量矩阵X,包括步骤A1-A2:A1.从原始数据集中提取样本数据记录构成新的数据集,记作DataSet,DataSet中数据记录的条数为n条,记Di 为DataSet中第i条数据记录,则D=(D1 ,D2 ,…,Dn )T 表示DataSet中的n条记录;每条数据记录有m个属性,即每条记录可表示为Di =(d1 ,d2 ,…dj ,…,dm ),其中dj (j=1,2,…,m)表示第j个属性的取值;A2.以DataSet中的每一条数据记录作为一个数据点插入矩阵行向量,每一个属性作为一个维度插入矩阵列向量,构建的特征向量矩阵X如下: X = x 11 x 12 ... x 1 j ... x 1 m x 21 x 22 ... x 2 j ... x 2 m . . . . . . ... . ... . . . . . x i 1 x i 2 ... x i j ... x i m . . . . . . ... . ... . . . . . x n 1 x n 2 ... x n j ... x n m ]]> 其中,i∈{1,2,…,n},j∈{1,2,…,m},矩阵中的每一个点xij 表示第i个维度中第j个数据点;B.通过KNN-Pearson度量方法计算矩阵X中两两维度间的相关性大小值,记录在相关性矩阵R中;包括步骤B1-B3:B1.通过公式1计算数据在维度dj 上点xi 位置处的密度: 公式1中,ρ(xi ,dj )是数据在维度dj 上点xi 位置处的密度,即矩阵X中的元素xij 处的密度;KNN(K-NearestNeighbor)是指k最近邻,即在维度dj 上距离点xi 最近的k个点;KNN(xi ,dj )指维度dj 上距离点xi 最近的k个点;max(KNN(xi ,dj ))指KNN(xi ,dj )中维度坐标值最大的点;min(KNN(xi ,dj ))指KNN(xi ,dj )中维度坐标最小的点;ε为阈值,一般 其中n为数据集中数据记录的条数;通过公式1计算向量矩阵中的每个元素的密度,得到密度矩阵P表示如下: P = ρ ( x 1 , d 1 ) ρ ( x 1 , d 2 ) ... ρ ( x 1 , d j ) ... ρ ( x 1 , d m ) ρ ( x 2 , d 1 ) ρ ( x 2 , d 2 ) ... ρ ( x 2 , d j ) ... ρ ( x 2 , d m ) . . . . . . ... . ... . . . . . ρ ( x i , d 1 ) ρ ( x i , d 2 ) ... ρ ( x i , d j ) ... ρ ( x i , d m ) . . . . . . ... . ... . . . . . ρ ( x n , d 1 ) ρ ( x n , d 2 ) ... ρ ( x n , d j ) ... ρ ( x n , d m ) ]]> B2.通过公式2计算数据在维度dj 上所有点的密度的平均值: 对于密度矩阵P中的每一列元素,用公式2对求平均值得到每个维度dj 上的平均密度,记作 最终得到平均密度向量 B3.通过公式3计算两维度间的相关性大小: 并将计算得到两两维度间相关性记录在矩阵R中,表示如下: 矩阵R中,每个元素r(di ,dj )(i∈{1,2,…,m},j∈{1,2,…,m})表示维度di 和维度dj 间的相关系数,其中相关系数的取值范围在-1到1之间,正值表示两维度间存在正相关关系,负值表示两维度间存在负相关关系,且绝对值越接近1表示两维度间相关性越强;C.输出相关性矩阵R;第二步,通过对数据维度进行投影展示数据维度之间相关性的可视化方法,将数据维度间相关性进行可视化。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711260279.7/,转载请声明来源钻瓜专利网。