[发明专利]一种半监督的最小最大模块化模式分类方法在审
申请号: | 201510035805.4 | 申请日: | 2015-01-23 |
公开(公告)号: | CN104657743A | 公开(公告)日: | 2015-05-27 |
发明(设计)人: | 李云;吴燕平;冯丽丽 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监督 最小 最大 模块化 模式 分类 方法 | ||
技术领域
本发明涉及一种半监督的最小最大模块化模式分类方法,属于数据挖掘技术领域。
背景技术
在现实生活中,各行各业的数据量呈现指数级增长。根据互联网数据中心(Internet Data Center,简称IDC)的统计,全球的数据总量每年以40%~60%的速度增长,预计到2020年,全球的数据总量将达到35ZB(1021字节)。数据的价值不言而喻,如何有效地利用这些数据引起了众多研究者们的关注。
1999年吕宝粮教授在《基于类别关系的任务分解和模块结合:一种用于模式分类的模块化网络》一文中提出了最小最大模块化网络(Min-Max Modular Neural Network,简称M3网络),其出发点是为了解决大规模复杂数据分类难的问题,核心是采用分治法的思想将大规模数据分解成若干个小而简单的模块来处理以便降低原始问题的复杂度,并且各个子模块之间是相互独立的,在运行过程中模块之间不需要建立任何通信,便于实际任务的并行化操作。最后通过Min-Max规则组合每个模块的预测结果得到原始问题的解。
目前M3网络只是一种监督式的学习方法。监督学习(Supervised Learning)是指样本所属的类别是已知的,目标是根据给定的一个训练样本集寻找样本Xl与标记Yl之间的映射关系,并通过新的测试样本测试该映射关系的优劣。监督学习要求所有训练样本的类别必须是已知的,而且它需要大量有标记的样本才能获得高效的泛化性能。而现实问题中有标记样本和未标记样本通常是并存的,获得有标记样本需要花费大量的劳力,甚至需要某领域的专业知识作为支撑,而未标记样本唾手可得。非监督学习(Unsupervised Learning)通常是利用这些未标记样本之间的内在联系构建不同的学习模型,其与监督学习的一个本质的不同点是样本所属的类别是未知的,它无法直接获得样本Xl与标记Yl之间的映射关系。鉴于二者的不足,一些研究者们提出了半监督学习方法。
生成式半监督学习(formative Semi-Supervised Learning,简称fSSL)是半监督学习的一种。生成式半监督学习表示为:训练样本集合S′={X1′,X2′,...,XL′}, 其中D表示原始有标记样本的特征个数,K″表示隐藏变量的个数。很明显,用于描述样本的特征数量逐渐增多,但训练样本的数量保持不变。而本发明能够很好地解决上面的问题。
发明内容
本发明目的在于解决了大规模样本标记需要花费大量人力和物力的问题和解决了非监督学习中存在的学习不稳定的问题和现有M3网络只能用于有监督学习的问题,提出了一种半监督的最小最大模块化模式分类方法,该方法包括:(1)根据M3网络的任务划分原则划分有标记样本集,同时将未标记样本集划分相同的块数,并将未标记样本子集加入到有标记样本子集中;(2)利用相似性矩阵作为数据模型将有标记样本与未标记样本紧密相连;(3)在相似性矩阵中应用概率潜在语义分析(简称:PLSA)模型获得有标记样本与未标记样本之间的隐藏变量;(4)利用标记样本与隐藏变量的后验概率作为有标记样本的新的特征,测试样本与隐藏变量的后验概率作为有标记样本的新的特征;(5)利用Min-Max规则对基分类器的结果进行整合得到原始二类问题的解。
本发明解决其技术问题所采取的技术方案是:一种半监督的最小最大模块化模式分类方法,该方法结合半监督学习思想的M3网络,将半监督学习与M3网络相结合,既增强了原始M3网络的学习性能,又有效利用了大量存在的未标记样本。
方法流程:
本发明按选定的划分方法将有标记样本集和未标记样本集划分成样本子集,并按子集中心点距离最远策略将未标记样本子集无重复的添加到有标记样本子集中,从而组成训练子集。针对每个训练子集,利用概率潜在语义分析PLSA方法求取决定生成有标记样本和未标记样本的数据模型生成过程的隐藏变量,并将隐藏变量与有标记样本的后验概率作为有标记样本的新特征。该方法主要利用添加特征后的有标记样本训练分类器。针对测试样本,同样以隐藏变量与测试样本的后验概率作为新特征,并用训练阶段得到的分类器为其预测标签。最后运用Min-Max规则对基分类器的结果进行整合得到原始二类问题的解,具体步骤包括如下:
步骤1:数据划分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学;,未经南京邮电大学;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510035805.4/2.html,转载请声明来源钻瓜专利网。