[发明专利]一种基于维度投影的多维数据相关性可视分析方法及系统有效

专利信息
申请号: 201711260279.7 申请日: 2017-12-04
公开(公告)号: CN108021664B 公开(公告)日: 2020-05-05
发明(设计)人: 陈谊;张聪;章蓉 申请(专利权)人: 北京工商大学
主分类号: G06F16/26 分类号: G06F16/26
代理公司: 北京万象新悦知识产权代理有限公司 11360 代理人: 黄凤茹
地址: 100048*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公布了一种基于维度投影的多维数据相关性可视分析方法、系统及应用,属于数据分析与可视化技术领域。包括:建立KNN‑Pearson度量方法计算多维数据集中维度间相关性大小,通过矩阵将多维数据集进行形式化描述和操作,再对数据集维度间相关性进行定量计算,得到多维数据的维度相关性矩阵R;通过对数据维度进行投影展示数据维度之间相关性的可视化方法,将数据维度间相关性进行可视化。多维数据相关性可视分析系统包括:数据预处理模块、维度间相关性计算模块、维度间相关性的矩阵热图可视化模块、多维属性MDS投影模块、多视图可视化与交互模块;并应用于农药残留数据集的可视展示和分析。
搜索关键词: 一种 基于 维度 投影 多维 数据 相关性 可视 分析 方法 系统
【主权项】:
1.一种基于维度投影的多维数据相关性可视分析方法,包括如下步骤:第一步,建立KNN-Pearson度量方法计算多维数据集中维度间相关性大小,通过矩阵将多维数据集进行形式化描述和操作,再对数据集维度间相关性进行定量计算,得到多维数据的维度相关性矩阵R;包括如下步骤:A.数据预处理,构造原始数据集的特征向量矩阵X,包括步骤A1-A2:A1.从原始数据集中提取样本数据记录构成新的数据集,记作DataSet,DataSet中数据记录的条数为n条,记Di为DataSet中第i条数据记录,则D=(D1,D2,…,Dn)T表示DataSet中的n条记录;每条数据记录有m个属性,即每条记录可表示为Di=(d1,d2,…dj,…,dm),其中dj(j=1,2,…,m)表示第j个属性的取值;A2.以DataSet中的每一条数据记录作为一个数据点插入矩阵行向量,每一个属性作为一个维度插入矩阵列向量,构建的特征向量矩阵X如下: X = x 11 x 12 ... x 1 j ... x 1 m x 21 x 22 ... x 2 j ... x 2 m . . . . . . ... . ... . . . . . x i 1 x i 2 ... x i j ... x i m . . . . . . ... . ... . . . . . x n 1 x n 2 ... x n j ... x n m ]]>其中,i∈{1,2,…,n},j∈{1,2,…,m},矩阵中的每一个点xij表示第i个维度中第j个数据点;B.通过KNN-Pearson度量方法计算矩阵X中两两维度间的相关性大小值,记录在相关性矩阵R中;包括步骤B1-B3:B1.通过公式1计算数据在维度dj上点xi位置处的密度:公式1中,ρ(xi,dj)是数据在维度dj上点xi位置处的密度,即矩阵X中的元素xij处的密度;KNN(K-NearestNeighbor)是指k最近邻,即在维度dj上距离点xi最近的k个点;KNN(xi,dj)指维度dj上距离点xi最近的k个点;max(KNN(xi,dj))指KNN(xi,dj)中维度坐标值最大的点;min(KNN(xi,dj))指KNN(xi,dj)中维度坐标最小的点;ε为阈值,一般其中n为数据集中数据记录的条数;通过公式1计算向量矩阵中的每个元素的密度,得到密度矩阵P表示如下: P = ρ ( x 1 , d 1 ) ρ ( x 1 , d 2 ) ... ρ ( x 1 , d j ) ... ρ ( x 1 , d m ) ρ ( x 2 , d 1 ) ρ ( x 2 , d 2 ) ... ρ ( x 2 , d j ) ... ρ ( x 2 , d m ) . . . . . . ... . ... . . . . . ρ ( x i , d 1 ) ρ ( x i , d 2 ) ... ρ ( x i , d j ) ... ρ ( x i , d m ) . . . . . . ... . ... . . . . . ρ ( x n , d 1 ) ρ ( x n , d 2 ) ... ρ ( x n , d j ) ... ρ ( x n , d m ) ]]>B2.通过公式2计算数据在维度dj上所有点的密度的平均值:对于密度矩阵P中的每一列元素,用公式2对求平均值得到每个维度dj上的平均密度,记作最终得到平均密度向量B3.通过公式3计算两维度间的相关性大小:并将计算得到两两维度间相关性记录在矩阵R中,表示如下:矩阵R中,每个元素r(di,dj)(i∈{1,2,…,m},j∈{1,2,…,m})表示维度di和维度dj间的相关系数,其中相关系数的取值范围在-1到1之间,正值表示两维度间存在正相关关系,负值表示两维度间存在负相关关系,且绝对值越接近1表示两维度间相关性越强;C.输出相关性矩阵R;第二步,通过对数据维度进行投影展示数据维度之间相关性的可视化方法,将数据维度间相关性进行可视化。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711260279.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top