[发明专利]一种基于峭度的因果网络推断方法在审
申请号: | 201710059700.1 | 申请日: | 2017-01-24 |
公开(公告)号: | CN106874433A | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 谢峰;郝志峰;蔡瑞初;温雯;陈薇;陈炳丰 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N5/04 |
代理公司: | 广州市红荔专利代理有限公司44214 | 代理人: | 吝秀梅,李彦孚 |
地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 因果 网络 推断 方法 | ||
技术领域
本发明涉及一种数据挖掘技术领域,尤其是一种基于峭度的因果网络推断方法。
背景技术
目前,从观察数据中发现因果关系得到广泛的关注,并应用在许多领域,例如神经科学,经济学和流行病学等。在没有任何先验知识的情况下,传统的因果发现方法只能够找到马尔可夫等价类,需要借助干预实验来获得一个完整的网络,但实际情况下许多变量是不能够做干预操作。
Shimizu等人提出的线性非高斯无环模型(LiNGAM)可以很好地解决这个问题,该模型能够仅仅从观察数据集中识别完整的因果网络而得到越来越多研究。
针对线性非高斯无环模型(LiNGAM)模型的估计主要有三种思路:
第一种是将问题转化为现有问题,例如借助独立成分分析(ICA)技术来求解的
ICA-LiNGAM算法;
第二种是利用贝叶斯评分方法构建因果网络,例如BayesLiNGAM算法;
第三种是使用两两独立性来识别外生变量,逐层地估计因果次序,例如DirectLiNGAM算法和LR算法;
然而前两种思路是将问题转换成一个函数优化问题,然后利用一些优化算法来解决,但是它们都有对初始值敏感,容易陷入局部收敛的缺陷;对于第三种方法,将当前变量与其余所有变量的残差最独立的一个作为外生变量是不可靠的衡量标准;
使用近似变换方式估计LiNGAM模型会导致局部最优问题或者独立性不可靠问题,特别是当干扰变量越接近高斯分布时,越难区分变量之间的因果关系。所以提出一种简单直接的量化标准具有一定的研究价值和意义。
发明内容
针对现有技术的不足,本发明提供一种基于峭度的因果网络推断方法,从而能够稳定、快速的识别因果网络。
本发明的技术方案为:一种基于峭度的因果网络推断方法,通过基于峭度选择外生变量、逐层找出因果次序和利用最小二乘法剪边检验剪边三个过程,其特征在于,包括以下步骤:
1)、设置观察数据集X=[x1,x2,…xn],其中每个变量xi(i=1,2,...n)包含p个样本数据,设置因果次序集合K为空集合;
2)、计算每个变量xi(i=1,2,...n)的峭度值ki(i=1,2,...n),找出最大峭度值max ki所对应的变量xm,那么变量xm即为外生变量,其计算式为:
其中,E(xi4)为变量xi四阶中心距,(E(xi2))2为xi方差的平方;
3)、将其他变量与外生变量xm进行最小二乘回归,得到残差rim,其计算为:
根据残差rim得到残差数据集Rm,从而得到更新后的观察数据集X=Rm=(r1m,r2m,...rim);
4)、将外生变量xm按照从左至右的顺序加入因果次序数集K中;
5)、然后按照步骤2、3、4)迭代地的计算观察数据集X=Rm=(r1m,r2m,...rim)的外生变量,并将该外生变量加入到因果次序数集K中,并通过回归方法计算更新后的观察数据集X=Rm=(r1m,r2m,...rim)的残差和残差数据集,从而得到新的观察数据集;
6)、按照步骤5)直至观察数据集中剩下最后一个变量,然后将剩下的最后一个变量加入因果次序数集K中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710059700.1/2.html,转载请声明来源钻瓜专利网。