[发明专利]基于GMDH神经元网络的离群点检测方法及装置在审
申请号: | 201810257847.6 | 申请日: | 2018-03-27 |
公开(公告)号: | CN108229592A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 肖进;雷琴 | 申请(专利权)人: | 四川大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 成都厚为专利代理事务所(普通合伙) 51255 | 代理人: | 夏柯双 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练集 线性回归模型 神经元网络 样本 关键特征 离群点检测 子集 距离检测 数据维度 自适应 自组织 冗余 构建 建模 映射 剔除 重复 | ||
1.基于GMDH神经元网络的离群点检测方法,其特征在于,包括:
S1.用n个样本构建第一训练集L;
S2.利用GMDH神经元网络找出第一训练集L的关键特征子集;
S3.根据所述关键特征子集映射得到第二训练集L',并根据第二训练集L'建立第一线性回归模型;
S4.将第二训练集L'中的样本i剔除后建立第二线性回归模型,并根据第一线性回归模型和第二线性回归模型计算样本i的库克距离Di;
S5.重复步骤S4直到训练集L'中每个样本的库克距离Di都计算得出,然后确定离群点:若Di>4/n,(i=1,2,…,n),则样本i为离群点。
2.根据权利要求1所述的基于GMDH神经元网络的离群点检测方法,其特征在于,所述步骤S2包括:
S21.将第一训练集L分为模型学习集A和模型选择集B;
S22.利用模型学习集A和模型选择集B构建GMDH神经元网络,在模型学习集A上估计中间候选模型的参数,在模型选择集B上评价并选择中间候选模型,然后根据最优复杂度原理找到最优复杂度模型;
S23.记录所述最优复杂度模型中的关键特征子集。
3.根据权利要求2所述的基于GMDH神经元网络的离群点检测方法,其特征在于,所述步骤S22包括:
S221.构建外准则,建立输出和输入变量之间的一般关系:f(x1,x2,…,xp)=a1x1+a2x2+…+apxp,f(x1,x2,…,xp)为输出,ap为系数或权值向量,xp为输入向量,并把它的所有子项作为构建GMDH神经元网络的p个初始模型:v1=a1x1,v2=a2x2,…,vp=apxp;
S222.将p个初始模型两两组合生成个第一层中间候选模型,传递函数为w=f(vi,vj);i,j=1,2,…,p,i≠j,其中模型f(vi,vj)中的参数是在模型学习集A上使用最小二乘法估计得到,w是模型f(vi,vj)的估计输出;
S223.在模型选择集B上计算所有第一层中间候选模型的外准则值,根据外准则值由小到大排序,选择最优的Q1个第一层中间候选模型,将选出的第一层中间候选模型进行两两组合生成个第二层中间候选模型,传递函数为z=f(wi,wj);i,j=1,2,…,Q1,i≠j,其中模型f(wi,wj)中的参数是在模型学习集A上使用最小二乘法估计得到,z是模型f(wi,wj)的估计输出;
S224.按照上述方法计算得到第l层中间候选模型,根据最优复杂度原理找到最优复杂度模型,进入最优复杂度模型的自变量就是选出的关键特征,最终选出的关键特征的数量为m。
4.根据权利要求3所述的基于GMDH神经元网络的离群点检测方法,其特征在于,建立第一线性回归模型和第二线性回归模型的方法为最小二乘法。
5.根据权利要求1所述的基于GMDH神经元网络的离群点检测方法,其特征在于,库克距离Di的计算公式为:n为第一训练集L中的样本个数,为第一线性回归模型的预测值,为第二线性回归模型的预测值,m-最终选出的关键特征的数量,-第一线性回归模型的均方误差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810257847.6/1.html,转载请声明来源钻瓜专利网。