[发明专利]一种半监督的最小最大模块化模式分类方法在审

申请号：	201510035805.4	申请日：	2015-01-23
公开（公告）号：	CN104657743A	公开（公告）日：	2015-05-27
发明（设计）人：	李云;吴燕平;冯丽丽	申请（专利权）人：	南京邮电大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F17/30
代理公司：	南京知识律师事务所 32207	代理人：	汪旭东
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种监督最小最大模块化模式分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种半监督的最小最大模块化模式分类方法，其特征在于，所述方法向M3网络任务分解阶段得到的有标记样本子集中加入未标记样本，利用数据生成模型的隐藏变量来衔接有标记样本与未标记样本，并将隐藏变量与有标记样本的后验概率作为有标记样本的新特征，然后利用Min-Max集成规则得到原始问题的解，包括如下步骤：

步骤1：数据划分；

根据M3网络的任务分解原则将原始的有标记样本集划分；同时也将未标记样本集进行等分，其样本子集的个数与有标记样本子集的个数相同；

步骤2：未标记样本子集的分配；

将未标记样本子集依据子集中心点距离最远的原则无重复地添加到二类有标记样本子集中；此时，每个独立的训练样本子集中包含两部分，一部分是有标记二类样本子集，另一部分是未标记样本子集；

步骤3：隐藏特征生成；

对于每个训练子集，假定其中的有标记样本与未标记样本都由同一生成式模型产生，且有标记样本和未标记样本的产生过程由隐藏变量z_k决定；利用概率潜在语义分析PLSA方法求解隐藏变量，将求解得的隐藏变量和有标记样本的后验概率作为该有标记样本的新特征；在添加新特征后的有标记样本子集上训练分类器；

步骤4：测试样本的特征空间转换；

训练样本的特征空间若已改变，测试样本特征空间也应映射到与训练样本相同的特征空间中，通过提取每个测试样本在训练子集中的最近邻的n个有标记样本，估计出隐藏变量与测试样本的后验概率值作为测试样本的新特征；

步骤5：模块化集成；

用训练阶段得到的分类器为测试样本预测标签，使用Min-Max规则将所有基分类器的预测结果进行集成以得到原始问题的解。

2.根据权利要求1所述的一种半监督的最小最大模块化模式分类方法，其特征在于：所述方法将M3网络和半监督学习结合，包括如下步骤：

步骤1：数据划分；

将原始的有标记样本集S_L依据M3网络的样本划分原则按超平面划分方法划分成个有标记样本子集，M_i和M_j分别代表S_L中第C_i类和第C_j类样本所划分的块数；同时也将未标记样本集进行等分，其样本子集的个数与有标记样本子集的个数相同；

步骤2：未标记样本子集的分配；

计算各样本子集的中心点，将未标记样本分配到距其中心点距离最远的有标记样本子集中；此时，每个独立的训练样本子集中包含两部分，一部分是有标记二类样本子集，另一部分是未标记样本子集；

步骤3：隐藏特征生成；

训练子集中有标记样本子集用S_labeled表示，未标记样本子集用S_unlabeled表示；假设有标记样本和未标记样本均由一生成模型产生，且在有标记样本与未标记样本背后存在一些隐藏变量z₁,z₂,...,z_K″用于决定整个样本生成过程，包括：

1)从所有隐藏变量中以概率P(z_k)选定z_k；

2)给定隐藏变量z_k，以条件概率P(lX_t|z_k)生成有标记样本lX_t；

3)给定隐藏变量z_k，以条件概率P(uX_r|z_k)生成未标记样本uX_r；

有标记样本lX_t的生成仅与隐藏变量z_k有关，而与未标记样本无关；同样的，未标记样本uX_r的生成也仅与隐藏变量z_k有关，与有标记样本无关；通过该模型产生的有标记样本lX_t与未标记样本uX_r之间是相互独立的；依据概率论中条件独立性质，有如下等式成立：

P(lX_t,uX_r|z_k)＝P(lX_t|z_k)P(uX_t|z_k) 公式1

可以将上述样本产生过程解释为如下两个概率模型表达式：

P(lX_t,uX_r)＝P(lX_t)P(uX_r|lX_t) 公式2

P(uXr|lXt)=Σk=1K′′P(uXr|zk)P(lXt|zk)]]> 公式3

依据欧氏距离建立有标记样本与未标记样本之间的关系，

θtr=Σd=1D(lxt,d-uxr,d)2]]> 公式4

lx_t,d表示第t个有标记样本的第d个特征；ux_r,d表示第r个未标记样本的第d个特征；

利用概率潜在语义分析PLSA方法根据上面建立的数据模型设计一个似然函数，通过期望最大化EM方法获得最大的似然估计值；

依据PLSA方法的思想先建立log似然函数，然后逐步优化该函数获得最优的P(z_k)、P(lX_t|z_k)和P(uX_r|z_k)，包括如下步骤：

(1)建立似然函数log P(S_labeled,S_unlabeled,Z)；

根据贝叶斯公式，有条件概率

P(zk|lXt)=P(lXt|zk)P(zk)P(lXt)]]> 公式5

成立，由等式(1)、(2)、(3)，则S_labeled与S_unlabeled之间的联合概率密度函数可以进一步改写成：

P(lXt,uXr)=Σk=1K′′P(zk)P(lXt,uXr|zk)]]> 公式6

上式可以看作是在所有隐藏变量z_k条件下求得的边缘概率函数，再依据条件概率公式5可以推导如下：

P(lXt,uXr)=Σk=1K′′P(lXt,uXr,zk)]]> 公式7

至此，得到所有样本上的似然函数公式：

f=log P(Slabeled,Sunlabeled,Z)=Σk=1K′′Σt=1w+gΣr=1vθtrP(lXt,uXr,zk)]]> 公式8

其中，θ_tr是未标记样本uX_i和有标记样本lX_t的距离；K″是隐藏变量的个数；w+g是每个训练样本子集中所含的有标记样本的个数；ν是每个训练样本子集中所含的未标记样本的个数；

(2)最大化log似然函数

最大化log似然函数就是利用EM方法迭代优化函数公式8，E步骤是用有标记样本和未标记样本计算P(z_k|lX_t,uX_r)；M步骤是用得到的P(z_k|lX_t,uX_r)值计算条件概率P(lX_t|z_k)和P(uX_r|z_k)获得最大的似然值；

P(zk)=Σt=1w+gΣr=1vθtrP(zk|lXt,uXr)Σt=1w+gΣr=1vθtr]]> 公式10

P(lXt|zk)=Σr=1vθtrP(zk|lXt,uXr)Σt=1w+gΣr=1vθtrP(zk|lXt,uXr)]]> 公式11

P(uXr|zk)=Σt=1w+gθtrP(zk|lXt,uXr)Σt=1w+gΣr=1vθtrP(zk|lXt,uXr)]]> 公式12

迭代更新公式9～公式12，使得公式8的似然函数f获得最大值，循环终止条件可以是达到最大迭代次数或者是算法满足收敛条件；

利用得到的最优解可以求得隐藏特征值，该值可视为有标记样本lX_t的新特征，lX_t的新特征公式定义如公式13所示，该式描述为有标记样本lX_t与隐藏变量z_k的后验概率；

P(zk|lXt)=P(lXt|zk)P(zk)Σb=1K′′P(lXt|zb)P(zb)]]> 公式13

则一个新的有标记样本由原始特征空间中的特征值和新产生的特征值组成，表示为：lX~t={lxt,1,lxt,2,..,lxt,D,P(z1|lXt),...,P(zK′′|lXt)},t=1,2,...,w+g,]]>继而可以得到新的有标记样本子集S~labeledh={lX~t}t=1w+g,h=1,...,Σi=1K-1Σj=i+1KMi×Mj;]]>