[发明专利]一种数据相关性分析方法及装置在审
申请号: | 201710525213.X | 申请日: | 2017-06-30 |
公开(公告)号: | CN109214840A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 张勇 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F16/90 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 朱佳 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 维度 度量 数据子集 数据相关性分析 拟合 数据分析技术 多维数据集 多维数据 人工方式 人工干预 人工作业 作业效率 线确定 分析 重复 申请 | ||
本申请涉及数据分析技术领域,尤其涉及一种数据相关性分析方法及装置,为解决现有技术存在的只能依靠人工方式进行数据相关性分析的问题,该方法为,将多维数据集以维度为单位划分为若干数据子集,一个数据子集对应一个维度,且一个数据子集在相应维度下包含若干度量,并计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线,以及基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性,这样,无需人工干预,多维数据集中每一个维度下的每一个度量对,都会被进行相关性分析,而且避免了重复繁琐的人工作业,有效提高了作业效率,降低了分析成本。
技术领域
本申请涉及数据分析技术领域,尤其涉及一种数据相关性分析方法及装置。
背景技术
商业数字化的今天,越来越多的公司开始倡导“用数据说话”,利用数据分析来帮助公司进行商务运营和制定决策,其中,相关性提取就是最常见的一种数据分析方式。
现有技术下,通常是通过专业数据分析师,以人工方式提取数据集中具有相关性的数据,以销售类数据为例,销售量越多,销售额也就越高,即可确定销售量和销售额之间存在一定的相关性,经过人工分析,确定销售量和销售额之间呈正相关。
然而,对于多维数据集来说,继续采用人工方式,从多维数据集中逐一筛选具有相关性的数据子集,工作量太大,而且容易遗漏,显然是不可取的。
有鉴于此,需要设计一种新的多维数据集相关性分析方法以克服上述缺陷。
发明内容
本申请实施例提供一种数据相关性分析方法及装置,用以解决现有技术中存在的只能依靠人工方式进行数据相关性分析的问题。
本申请实施例提供的具体技术方案如下:
第一方面,一种数据相关性分析方法,包括:
以维度为单位将待分析的多维数据集划分为若干数据子集,其中,一个数据子集对应一个维度,一个数据子集在相应维度下包含若干度量;
计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线;
基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性。
可选的,计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线,基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性,包括:
分别将至少一个数据子集中的每两个度量确定为一个度量对;
针对至少一个数据子集的至少一个度量对执行以下操作:
基于一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值,确定对应的拟合线;
基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性。
可选的,分别将至少一个数据子集中的每两个度量确定为一个度量对之后,针对至少一个数据子集的至少一个度量对执行以下操作之前,进一步包括:
分别计算所述至少一个数据子集中至少一个度量对中两个度量之间的相关系数;
筛选出所得相关系数大于设定阈值的度量对。
可选的,基于一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值,确定对应的拟合线,包括:
分别计算一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值对应的度量最大值、度量最小值、度量均值和度量标准差;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710525213.X/2.html,转载请声明来源钻瓜专利网。