[发明专利]数据集中强相关变量提取及专利数量影响因素提取方法有效
申请号: | 201911176601.7 | 申请日: | 2019-11-26 |
公开(公告)号: | CN110990453B | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 王树良;许建峰;冯俊达;刘传鲁;耿晶 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 高会允 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 集中 相关 变量 提取 专利 数量 影响 因素 方法 | ||
本发明公开了本发明提供了数据集中强相关变量提取及专利数量影响因素提取方法,能够计算两两变量之间的相关性,更有利于挖掘现实数据中隐藏的关联关系。其中数据集中强相关变量提取方法,通过对数据进行分块划分,并采用邻域向量检测以及自适应加权的方式进行两变量之间相关性的计算。本发明还提供了一种利用强相关变量提取方法进行专利数量影响因素提取的方法,根据该方法提取的影响因素与专利数量存在较强的相关性,从而获得专利数量与其他变量之间隐藏的关联关系。
技术领域
本发明涉及数据挖掘技术领域,具体涉及数据集中强相关变量提取及专利数量影响因素提取方法。
背景技术
随着大量的数据产生在各个学科,如地理学,物理学,政治学和经济学,尤其是生物学科的数据在呈指数型增长,挖掘大数据集中的潜在关系也变得越来越有意义.想象有一个数据集中有百个变量,即可组合成千上万对双变量,这些变量对之间很可能存在着隐藏的关联关系,尤其当这些要探寻的关系类型未知时,人工挖掘如此大量的关系便显得不切实际。
因此,很多情况下,在进行信息分析、信息推荐及信息预测时,由于数据量庞大,在一个大数据集中,如何有效地辨识变量之间的潜在关系越来越具有挑战性和重要性。例如在对世界健康组织的数据进行分析时,判断人的健康系数与什么变量的关系最紧密,是饮食习惯、睡眠规律还是其他因素。
在互联网信息推荐时,如何根据一些用户的浏览记录、关注内容判断另一些用户感兴趣的信息;市场分析时,如何根据以往市场分析报告找出市场波动的影响因素,从而根据这些因素的现状预测下一阶段的市场动态;因此变量之间的相关度获取是否准确至关重要。
在这种需求下,David N.Reshef以及Yakir A.Reshef等人在《Science》杂志上提出了一个新的统计方法,即最大信息系数MIC,可用于量化双变量之间的关系强度,进而发现隐藏在大数据集中的重要关系。
该方法使用类拟合的思想,使用网格包围双变量在平面直角坐标系中形成的离散点,即,如果两个变量之间存在某种关系,那么就可以在其散点图上构造某种网格划分,使得大多数的数据点集中在该网格的几个单元格中,这些包含数据点的网格可近似视为某种拟合曲线,从而达到刻画两变量的关系的目的。不同于曲线拟合方法无法应对非函数型关系,容易过拟合,以及计算量大,该方法对函数以及非函数关系均适用,计算量小,且可挖掘出变量间深层关系。该方法依赖于样本的大小,通过搜寻满足一定条件的所有网格划分直至搜寻到最优的网格划分方案,该方案即为其网格拟合方案,最可能揭示出其真实的潜在关系,该网格划分下的互信息的归一化值即为MIC值。
MIC方法较之其他的相关性度量方法,如Pearson相关系数、Spearman相关系数等,更加适用于数据探索,可以在大数据集中发现范围广泛的关系类型,不再局限于特定的函数类型,尤其是线性关系,此外,MIC能够对于噪声水平相同的不同关系类型给出类似的评估值,特别地,对于函数类型而言,MIC对R2值接近的不同函数关系给出相近的度量,避免单纯地因不同的关系类型影响相似性的度量。这些特征使得MIC在各个领域产生重要的影响,抒写着数据探索的新篇章。
MIC相对于Pearson,Spearman相关系数而言,其优势是可以检测出各种类型的关系,线性和非线性,单调和非单调,甚至是非函数类型的广泛关系,并且受异常值的影响较少。对于最大相关系数,距离相关系数,或者互信息而言,MIC最重要的优势是它的均匀性,对于相同噪声水平的不同函数关系,可以给出相近的评估值,例如互信息可能对于R2值相同的抛物线函数和正弦函数给出不同的值,但是实际上抛物线关系和正弦关系同属于函数关系,都是强关联关系,得到不同的相关性度量值是不合理的,MIC很好地解决了这一缺陷,对于两个无噪声的具有确定关系的随机变量,MIC值都为1;对于两个有噪声但存在关系的随机表里,MIC的值与噪声水平成反比,与R2值接近;对于两个统计上相互独立的随机变量,MIC的值趋近0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911176601.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置