[发明专利]支持高维度因果发现的因果框架划分方法在审
申请号: | 201711249769.7 | 申请日: | 2017-12-01 |
公开(公告)号: | CN107967519A | 公开(公告)日: | 2018-04-27 |
发明(设计)人: | 麦桂珍;洪英汉;彭世国;陈平华;郭才 | 申请(专利权)人: | 广东工业大学;韩山师范学院 |
主分类号: | G06N5/04 | 分类号: | G06N5/04 |
代理公司: | 重庆为信知识产权代理事务所(普通合伙)50216 | 代理人: | 孙荣川 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 支持 维度 因果 发现 框架 划分 方法 | ||
技术领域
本发明涉及数据挖掘技术领域,具体的说是一种支持高维度因果发现的因果框架划分方法。
背景技术
因果网络是不确定性推断的一种重要工具,因果网络结构学习是机器学习的研究热点之一。对于可观察数据集来说,因果网络可以有效地描述事物之间的因果关系,而不仅仅是事物之间的关联。在因果网络的推断问题上,由数据节点集构建因果网络结构,再通过节点之间的关系推断出因果网络图。
不过,传统的方法用在高维数据中,其运算时间复杂度偏高,严重影响了算法的推广。传统的因果网络推断方法一般分两大类,基于估计马尔可夫等价类的贝叶斯网络结构学习算法和基于加性噪声模型(Additive noise model,ANM)或信息几何的因果方向推断算法。
其中,贝叶斯网络结构学习算法主要有两种,即基于评分-搜索的结构学习和基于依赖分析的结构学习,都无法识别数据集中存在的马尔可夫等价类,如X->Z->Y与X<-Z<-Y这2种结构。然而,高维网络结构常常存在于马尔可夫等价类中,无法准确推断因果关系。贝叶斯网络结构学习算法采用穷举法搜索达到精准解,但是随着网络结构维度增长,其时间复杂度呈指数增长,很难使用于超过100维的网络。基于估计马尔可夫等价类的贝叶斯网络结构学习算法只能用于因果结构无向图的环境,而无法准确完成模型的方向推断。基于加性噪声模型或信息几何的因果方向推断算法能够从数据结点集中构建出有效的因果网络。
Shimizu等人提出了一种基于线性加噪声模型的因果推断算法,即:Linear non-Gaussian acyclic model,LINGAM;此方法对因果网络结构方向推断有一定的效果。在非线性数据挖掘领域,Hoyer等人提出了一种适用于连续数据的基于非线性的ANM。此后Peters等人把ANM推广到离散数据。区别于ANM,Janzing等人提出基于信息熵的因果推断算法,即:Information-geometric causal inference,IGCI,该方法能够控制阈值,其推断效果高于其余的因果推断算法。此类算法的极限只能处理低维数据,当维度N>7时,ANM的因果推断能力明显变差。
由此可知,以上因果推断方法无法适应高维度的情况,然而真实世界的数据常常是高维数据。从观测数据中发现因果关系是许多科研领域的关键问题。然而,在样本不足的大规模数据中,由于维数灾难,使用一般的因果发现方法是不容易发现因果关系的,如基于约束方法或加性噪声模型。虽然一些因果划分框架,提出了缓解问题,他们,其实也面临着高维问题,因为现有的因果划分框架依赖一般条件独立性测验。这些方法可以处理非常稀疏的因果图,但如果因果图变得更密集时,这些方法往往非常不可靠了。
一般情况下,因果发现通常制定一个关于变量有向无环图(DAG),有向边表示变量之间的因果关系。如果实验不能被操纵,条件独立(CI)试验通常用基于约束的方法检测局部变量之间的因果关系。我们经常考虑这样一种情况:设X,Y和Z表示随机变量集,如果给定Z,X和Y是条件独立,表示为X⊥Y|Z,这就意味着X和Y没有直接的因果关系。然而当所需样本量随问题域大小成倍增加时,这些方法往往无法在高维情况下找到真正的因果关系。比如,一般来说现有的方法,像PC算法、直接使用CI测试恢复数据因果关系,很难处理变量数目大于50的情况。遇到两个严重的问题,第一:要从条件独立测试的数据中搜索所有可能的条件集Z,通常我们没法在可接受的时间得到最终的结果;第二:条件集Z是足够大时条件独立测试往往是不可靠的,并有可能失败进入II型错误,即使是假的,在条件独立假设也不被拒绝。为了解决上述困难,研究人员采用因果划分,其目的是划分原始数据集转换成两个或多个子数据集,例如每个子数据集对应的一个子问题,这样就可以通过使用现有的方法解决,如PC算法,最后通过合并所有子问题的结果来解决原始问题。
发明内容
针对上述问题,本发明提供了一种支持高维度因果发现的因果框架划分方法,对高维度数据进行因果划分,可靠精确。
为达到上述目的,本发明采用的具体技术方案如下:
定义1:设定G=(V,E),其中V为变量集;
G表示变量集V的有向无环图,三个非重叠变量子集V1、V2和C在G上形成因果划分,当且仅当,V1∪V2∪C=V,且给定如果u和v是不相邻的,则或者,使得u⊥v|Z;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学;韩山师范学院,未经广东工业大学;韩山师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711249769.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于产品设计的知识自动关联系统及方法
- 下一篇:一种设备综合性能评价方法