[发明专利]一种半监督的最小最大模块化模式分类方法在审
申请号: | 201510035805.4 | 申请日: | 2015-01-23 |
公开(公告)号: | CN104657743A | 公开(公告)日: | 2015-05-27 |
发明(设计)人: | 李云;吴燕平;冯丽丽 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监督 最小 最大 模块化 模式 分类 方法 | ||
1.一种半监督的最小最大模块化模式分类方法,其特征在于,所述方法向M3网络任务分解阶段得到的有标记样本子集中加入未标记样本,利用数据生成模型的隐藏变量来衔接有标记样本与未标记样本,并将隐藏变量与有标记样本的后验概率作为有标记样本的新特征,然后利用Min-Max集成规则得到原始问题的解,包括如下步骤:
步骤1:数据划分;
根据M3网络的任务分解原则将原始的有标记样本集划分;同时也将未标记样本集进行等分,其样本子集的个数与有标记样本子集的个数相同;
步骤2:未标记样本子集的分配;
将未标记样本子集依据子集中心点距离最远的原则无重复地添加到二类有标记样本子集中;此时,每个独立的训练样本子集中包含两部分,一部分是有标记二类样本子集,另一部分是未标记样本子集;
步骤3:隐藏特征生成;
对于每个训练子集,假定其中的有标记样本与未标记样本都由同一生成式模型产生,且有标记样本和未标记样本的产生过程由隐藏变量zk决定;利用概率潜在语义分析PLSA方法求解隐藏变量,将求解得的隐藏变量和有标记样本的后验概率作为该有标记样本的新特征;在添加新特征后的有标记样本子集上训练分类器;
步骤4:测试样本的特征空间转换;
训练样本的特征空间若已改变,测试样本特征空间也应映射到与训练样本相同的特征空间中,通过提取每个测试样本在训练子集中的最近邻的n个有标记样本,估计出隐藏变量与测试样本的后验概率值作为测试样本的新特征;
步骤5:模块化集成;
用训练阶段得到的分类器为测试样本预测标签,使用Min-Max规则将所有基分类器的预测结果进行集成以得到原始问题的解。
2.根据权利要求1所述的一种半监督的最小最大模块化模式分类方法,其特征在于:所述方法将M3网络和半监督学习结合,包括如下步骤:
步骤1:数据划分;
将原始的有标记样本集SL依据M3网络的样本划分原则按超平面划分方法划分成个有标记样本子集,Mi和Mj分别代表SL中第Ci类和第Cj类样本所划分的块数;同时也将未标记样本集进行等分,其样本子集的个数与有标记样本子集的个数相同;
步骤2:未标记样本子集的分配;
计算各样本子集的中心点,将未标记样本分配到距其中心点距离最远的有标记样本子集中;此时,每个独立的训练样本子集中包含两部分,一部分是有标记二类样本子集,另一部分是未标记样本子集;
步骤3:隐藏特征生成;
训练子集中有标记样本子集用Slabeled表示,未标记样本子集用Sunlabeled表示;假设有标记样本和未标记样本均由一生成模型产生,且在有标记样本与未标记样本背后存在一些隐藏变量z1,z2,...,zK″用于决定整个样本生成过程,包括:
1)从所有隐藏变量中以概率P(zk)选定zk;
2)给定隐藏变量zk,以条件概率P(lXt|zk)生成有标记样本lXt;
3)给定隐藏变量zk,以条件概率P(uXr|zk)生成未标记样本uXr;
有标记样本lXt的生成仅与隐藏变量zk有关,而与未标记样本无关;同样的,未标记样本uXr的生成也仅与隐藏变量zk有关,与有标记样本无关;通过该模型产生的有标记样本lXt与未标记样本uXr之间是相互独立的;依据概率论中条件独立性质,有如下等式成立:
P(lXt,uXr|zk)=P(lXt|zk)P(uXt|zk) 公式1
可以将上述样本产生过程解释为如下两个概率模型表达式:
P(lXt,uXr)=P(lXt)P(uXr|lXt) 公式2
依据欧氏距离建立有标记样本与未标记样本之间的关系,
lxt,d表示第t个有标记样本的第d个特征;uxr,d表示第r个未标记样本的第d个特征;
利用概率潜在语义分析PLSA方法根据上面建立的数据模型设计一个似然函数,通过期望最大化EM方法获得最大的似然估计值;
依据PLSA方法的思想先建立log似然函数,然后逐步优化该函数获得最优的P(zk)、P(lXt|zk)和P(uXr|zk),包括如下步骤:
(1)建立似然函数log P(Slabeled,Sunlabeled,Z);
根据贝叶斯公式,有条件概率
成立,由等式(1)、(2)、(3),则Slabeled与Sunlabeled之间的联合概率密度函数可以进一步改写成:
上式可以看作是在所有隐藏变量zk条件下求得的边缘概率函数,再依据条件概率公式5可以推导如下:
至此,得到所有样本上的似然函数公式:
其中,θtr是未标记样本uXi和有标记样本lXt的距离;K″是隐藏变量的个数;w+g是每个训练样本子集中所含的有标记样本的个数;ν是每个训练样本子集中所含的未标记样本的个数;
(2)最大化log似然函数
最大化log似然函数就是利用EM方法迭代优化函数公式8,E步骤是用有标记样本和未标记样本计算P(zk|lXt,uXr);M步骤是用得到的P(zk|lXt,uXr)值计算条件概率P(lXt|zk)和P(uXr|zk)获得最大的似然值;
迭代更新公式9~公式12,使得公式8的似然函数f获得最大值,循环终止条件可以是达到最大迭代次数或者是算法满足收敛条件;
利用得到的最优解可以求得隐藏特征值,该值可视为有标记样本lXt的新特征,lXt的新特征公式定义如公式13所示,该式描述为有标记样本lXt与隐藏变量zk的后验概率;
则一个新的有标记样本由原始特征空间中的特征值和新产生的特征值组成,表示为:
步骤4:测试样本的特征空间转换;
由于训练样本的特征空间已改变,测试样本特征空间也应映射到训练样本相同的特征空间中,测试阶段仍然采用测试样本tXa与隐藏变量zk的后验概率作为测试样本的新特征,如公式16所示;
在有标记样本集Slabeled中获得的n个近邻样本,隐藏变量zk从训练阶段直接得到;测试样本tXa与隐藏变量zk之间相互独立,则P(tXa|zk)可以被拆分成两部分:P(tXa|Ω)和P(Ω|zk);利用近邻矩阵Ω与测试样本tXa的欧氏距离表示P(tXa|Ω),由于Ω属于有标记样本子集Slabeled的一部分,则可以将P(tXa|Ω)改成P(tXa|lXt),将P(Ω|zk)改成P(lXt|zk),且lXt∈Ω,测试样本tXa的新特征产生公式14以重新定义为如式15示;
步骤5:模块化集成;
用训练阶段得到的分类器为测试样本预测标签,使用Min-Max规则将所有基分类器的预测结果进行集成以得到原始问题的解。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学;,未经南京邮电大学;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510035805.4/1.html,转载请声明来源钻瓜专利网。