[发明专利]基于半监督学习的孪生超限学习机分类的数据处理方法在审

专利信息
申请号: 201810324030.6 申请日: 2018-04-12
公开(公告)号: CN108596224A 公开(公告)日: 2018-09-28
发明(设计)人: 宋士吉;万义和;岳凡 申请(专利权)人: 清华大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 罗文群
地址: 100084*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于半监督学习的孪生超限学习机分类的数据处理方法,属于数据挖掘与处理技术领域。本发明在基于随机特征映射机制的基础上采用两个非平行分类面进行分类的半监督学习算法,将流行正则化、随机特征映射和两个非平行分类面的技术组合起来,解决单分类面在交叉数据等问题上缺陷,并在有奇异点的情况下保证有较强的鲁棒性,同时克服了之前算法在少量有标签样本上无法同时满足泛化能力与计算效率要求的问题。本发明方法,可以在有标签数据较少的情况下,充分挖掘无标签数据所蕴含的信息,非常适用于在高铁、风机等新兴高技术领域的故障诊断中,计算速度快,基本上可做到实时判断,且分类的准确率高。
搜索关键词: 分类 半监督学习 标签数据 随机特征 数据处理 非平行 分类面 学习机 超限 半监督学习算法 高技术领域 故障诊断 计算效率 实时判断 数据挖掘 映射机制 鲁棒性 奇异点 正则化 风机 准确率 映射 高铁 算法 样本 标签 挖掘 保证
【主权项】:
1.一种基于半监督学习的孪生超限学习机分类的数据处理方法,其特征在于该方法包括以下步骤:(1)对数据集合进行分解:令xi表示数据集中的一个数据,i=1,2,…,n,n表示数据集中所包含数据的个数,设数据xi具有d个特征,则xi由一个1×d维的行向量表示,即xi=(xi1,xi2,…,xij,…,xid),xij表示数据xi的第j个特征,j=1,2,…,d;将数据集中所有数据按照行向量的方式自上而下记入一个矩阵X中:将数据集中的所有数据分成两个子集,即有标签数据子集和无标签数据子集,并分别记入矩阵Xl和Xu,其中:Xl——表示有标签数据组成的矩阵,l表示有标签数据的个数;Xu——表示无标签数据组成的矩阵,u表示无标签数据的个数;将有标签数据集合分为两个子集,即标签为+1的数据集合和标签为+1的数据集合,并分别记入矩阵A和B,其中:A——表示标签为+1的数据组成的矩阵,m1表示该类数据的个数;B——表示标签为‑1的数据组成的矩阵,m2表示该类数据的个数;(2)对矩阵A和B中的数据,分别构建两个单隐含层前向反馈网络,对两类有标签数据进行学习,包括以下步骤:(2‑1)构建单隐含层前向反馈网络的结构:设置单隐含层前向反馈网络的输入层节点数量为每个数据的特征个数,即输入层有d个输入节点,设单隐含层前向反馈网络的隐含层节点数量为nh,nh为任意正整数,设单隐含层前向反馈网络的输出层的节点为1,输出函数用h(xi)表示;(2‑2)选择一个激活函数G(x),如Sigmoid函数G(x)=1/(1+e‑x),(2‑3)构建一个拉普拉斯矩阵L:设数据xi和xj为近邻关系,数据点xi为离数据xj最近的k个数据之一,或数据xj为离数据xi最近的k个数据之一,k的取值范围为[5,10];采用高斯函数,计算两个数据xi和xj之间的权重Pij如下:根据上述权重Pij,构建一个对角矩阵D,令对角矩阵D角上的元素为则拉普拉斯矩阵为L=D‑P,其中矩阵P是pij元素的集合,σ为任意正整数;(2‑4)根据上述函数G(x)的线性特性,构建单隐含层前向反馈网络的隐含层输出矩阵:(2‑4‑1)当函数G(x)为线性函数时:计算数据标签为+1的矩阵A中的隐含层的输出矩阵,矩阵A中包含m1个数据的特征,隐含层输出矩阵为以下的m1×d维矩阵U:其中,k=1,…,nh,i=1,…,m1,表示数据xi在隐含层第k个节点上的输出;wik——表示连接输入节点与隐含层节点之间的权重,该向量中的元素根据均匀概率分布在区间[‑1,+1]上随机生成;bk——表示第k个隐含层节点的偏差,该偏差向量中的元素根据均匀概率分布在区间[‑1,+1]上随机生成;计算数据标签为‑1的矩阵B中的隐含层的输出矩阵,矩阵B中包含m2个数据的特征,隐含层输出矩阵为以下的m2×d维矩阵V:其中,k=1,…,nh,i=1,…,m2,表示数据xi在隐含层第k个节点上的输出;(2‑4‑2)当上述当函数G(x)为非线性函数时:当函数G(x)为非线性函数时,定义一个孪生超限学习机核函数:是核矩阵,其中上标T表示矩阵或向量的转置;当k=1,…,nh,i=1,…,m1时,计算矩阵A中的隐含层的输出矩阵,由于矩阵A中包含m1个数据的特征,所以隐含层输出矩阵为以下的m1×nh维矩阵:R=KELM(A,XT)当k=1,…,nh,i=1,…,m2时,计算矩阵B中的隐含层的输出矩阵,由于矩阵B中包含m2个数据的特征,所以隐含层输出矩阵为以下的m2×nh维矩阵:S=KELM(B,XT)(3)求解一个二次规划问题,得到拉格朗日乘子向量,具体步骤如下:(3‑1)建立一个二次规划问题的模型(P1):(P1)满足0≤αi≤c,i=1,…,m针对标签为+1的数据,求解步骤(1)中矩阵A的拉格朗日乘子α,其中c表示一个正的常数,根据需要设定取值范围为0至1010;建立一个二次规划问题的模型(P2):(P2)满足0≤λi≤c,i=1,…,m针对标签为‑1的数据,求解步骤(1)中矩阵B中的拉格朗日乘子λ,其中c表示一个正的常数,根据需要设定取值范围为0至1010;(3‑2)采用逐次超松弛迭代方法求解上述(3‑1)的二次规划问题的模型(P1),求解过程如下:(3‑2‑1)确定模型中的Q矩阵;当函数G(x)为线性函数时,模型(P1)中的Q是m×m维矩阵,Q=V(UTU+c1FTLF+εI)‑1VT;模型(P2)中的Q是m×m维矩阵,Q=U(VTV+c1FTLF+εI)‑1UT,其中:U——表示当G(x)为线性函数时,矩阵A的隐含层输出,V——表示当G(x)为线性函数时,矩阵B的隐含层输出,F——表示矩阵X隐含层的输出矩阵,由矩阵U和V组合而成,是一个(l+u)×nh的二维矩阵,L——表示步骤(2‑3)中构建一个拉普拉斯矩阵,T——表示矩阵或向量的转置,ε——表示一个任意小的正标量,I——表示相应维度的单位矩阵,c1——表示一个正的常数,当函数G(x)为非线性函数时,模型(P1)中的Q是m×m维矩阵,Q=S(RTR+c1KLK+εI)‑1ST,模型(P2)中的Q是m×m维矩阵,Q=R(STS+c1KLK+εI)‑1RT,其中:R——表示当G(x)为非线性函数时,矩阵A的隐含层输出,S——表示当G(x)为非线性函数时,矩阵B的隐含层输出,K——表示超限学习机的核矩阵,(3‑2‑2)以求解模型(P1)为例,设定初始值,t为区间(0,2)一个任意选择的实数,令α0为随机生成一个1×m维的实数向量;(3‑2‑3)迭代更新,计算αi+1αi+1=(αi‑tE‑1(Qαi‑e+L(αi+1‑αi)))其中e为相应维度的单位向量,L是m×m维度的二维矩阵,是严格的下三角矩阵,其中lij=qij,i>j,E是m×m维度的二维矩阵,是对角矩阵,eij=qij,i=j,qij为Q的元素,(3‑2‑4)计算||αi+1‑αi||,若||αi+1‑αi||的值小于规定的阈值或许可值,则输出α,若||αi+1‑αi||的值大于或等于规定的阈值或许可值,则返回(3‑2‑3);利用与上述(3‑2‑2)和步骤(3‑2‑3)的方法,求解上述模型(P2),得到拉格朗日乘子λ;(4)计算+1类数据和‑1类数据的两个分类面,用于对无标签数据进行分类:利用矩阵Xl中的有标签数据xi,i=1,…,l,分别学习出+1类和‑1类两个分类面:(4‑1)对于函数G(x)为线性函数的情况:令β1=‑(UTU+c1FTLF+εI)‑1VTα,则+1类数据的分类面为:h(xi)β1=‑h(xi)(UTU+c1FTLF+εI)‑1VTα=0;令β2=‑(VTV+c1FTLF+εI)‑1UTλ,则‑1类数据的分类面为:h(xi)β2=‑h(xi)(VTV+c1FTLF+εI)‑1UTλ=0;其中,ε表示任意小的正标量,I为相应维度的单位矩阵;(4‑2)对于函数G(x)为非线性函数的情况:令μ1=‑(RTR+c1KLK+εI)‑1STα,则+1类数据的分类面为:h(xi)μ1=‑h(xi)(RTR+c1KLK+εI)‑1STα=0;令则‑1类数据的分类面为:(5)对数据集中的无标签数据进行分类:根据矩阵Xu中的无标签数据xi与两个分类超平面的距离,计算得到无标签数据xi的分类:当函数G(x)为线性函数时,计算f(xi)=argminr=1,2|h(xi)βr|当函数G(x)为非线性函数时,计算f(xi)=argminr=1,2|h(xi)μr|其中,f(xi)表示数据分类结果,为+1或‑1;h(xi)表示数据xi经过隐含层的输出;|·|表示xi到分类面的垂直距离。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810324030.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top