[发明专利]一种数据相关性分析方法及装置在审
申请号: | 201710525213.X | 申请日: | 2017-06-30 |
公开(公告)号: | CN109214840A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 张勇 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F16/90 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 朱佳 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 维度 度量 数据子集 数据相关性分析 拟合 数据分析技术 多维数据集 多维数据 人工方式 人工干预 人工作业 作业效率 线确定 分析 重复 申请 | ||
1.一种数据相关性分析方法,其特征在于,包括:
以维度为单位将待分析的多维数据集划分为若干数据子集,其中,一个数据子集对应一个维度,一个数据子集在相应维度下包含若干度量;
计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线;
基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性。
2.如权利要求1所述的方法,其特征在于,计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线,基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性,包括:
分别将至少一个数据子集中的每两个度量确定为一个度量对;
针对至少一个数据子集的至少一个度量对执行以下操作:
基于一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值,确定对应的拟合线;
基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性。
3.如权利要求2所述的方法,其特征在于,分别将至少一个数据子集中的每两个度量确定为一个度量对之后,针对至少一个数据子集的至少一个度量对执行以下操作之前,进一步包括:
分别计算所述至少一个数据子集中至少一个度量对中两个度量之间的相关系数;
筛选出所得相关系数大于设定阈值的度量对。
4.如权利要求1、2或3所述的方法,其特征在于,基于一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值,确定对应的拟合线,包括:
分别计算一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值对应的度量最大值、度量最小值、度量均值和度量标准差;
以所述一个度量对包含的两个度量中的任一个度量为横轴,另一个度量为纵轴,基于所述度量对中包含的两个度量各自对应的度量均值和度量标准差,确定所述度量对相应的线性关系;
基于所述线性关系,分别以所述度量对中作为横轴的度量对应的度量最小值和度量最大值为横轴已知量,确定所述度量对对应的纵轴已知量;
基于确定的两组横轴已知量和纵轴已知量,确定对应的拟合线。
5.如权利要求4所述的方法,其特征在于,确定所述度量对相应的线性关系之后,基于所述线性关系,分别以所述度量对中作为横轴的度量对应的度量最小值和度量最大值为横轴已知量,确定所述度量对对应的纵轴已知量之前,进一步包括:
基于横轴上对应的度量的度量均值的数量级,以及基于纵轴上对应的度量的度量均值的数量级,选取合适的坐标单位;
基于所述坐标单位,分别确定横轴上对应的度量的缩放倍数和纵轴上对应的度量的缩放倍数;
分别基于横轴上对应的度量的所述缩放倍数和纵轴上对应的度量的所述缩放倍数,对所述线性关系进行等比例的调整。
6.如权利要求2所述的方法,其特征在于,基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性,包括:
若拟合线的斜率大于零,则在所述维度下所述度量对中两个度量之间呈正相关;
若拟合线的斜率小于零,则在所述维度下所述度量对中两个度量之间呈负相关。
7.如权利要求6所述的方法,其特征在于,基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性之后,进一步包括:
从所述度量对所属的数据子集中,提取所述度量对中每一个度量的名称,以及提取所述数据子集对应的维度的名称,作为相关性组合,记录在相应的存储区域内。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710525213.X/1.html,转载请声明来源钻瓜专利网。