[发明专利]结合主动学习的四分类器协同训练方法无效

申请号：	201110257571.X	申请日：	2011-09-01
公开（公告）号：	CN102324046A	公开（公告）日：	2012-01-18
发明（设计）人：	杨利英;王轶初;韩玉想;盛立杰	申请（专利权）人：	西安电子科技大学
主分类号：	G06K9/66	分类号：	G06K9/66
代理公司：	陕西电子工业专利中心 61205	代理人：	程晓霞;王品华
地址：	710071***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	结合主动学习分类协同训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于机器学习技术领域，涉及结合主动学习的协同训练，具体是一种结合主动学习的四分类器协同训练方法，可用于提高半监督学习中未标记样本的利用率，进一步提高半监督学习的学习性能。所提出的方法适用于诸如网页分类、图象处理、人脸识别、入侵监测等应用领域。

背景技术

标准协同训练方法是Blum和Mitchell在1998年提出的。他们提出了标准协同训练方法基于如下三个基本假设：(1)属性集可以被划分为两个集合；(2)每一个属性集的子集合都足以训练一个分类器；(3)在给定类标记的情况下，这两个属性集是相互独立的。其中每个属性集构成一个视图，满足上述假设的视图称为充分冗余的视图。然后分别对已标记的样本在这两个属性集上训练分类器，这样得到两个分类器，将这两个分类器应用到未标记样本上，然后选择每个分类器对分类结果置信度高的未标记样本以及该样本的预测标记加入到另一个分类器已标记样本集中进行下一轮的训练，如此迭代。

标准协同训练方法的前提条件比较苛刻，在真实的问题中，满足充分冗余的要求往往很难达到。就Blum和Mitchell所述的网页分类而言，因为网页本身的信息这一视图与超链接上的信息这一视图很难满足条件独立性，而且大多数问题不具有足够大的属性集，因此很难满足该方法有效的前提条件。很多研究人员就尝试放松这三个假设。也有学者提出了使用不同的分类器在整个属性集上训练的方法，训练时，首先利用已标记样本对两个不同的分类器在整个属性集上进行训练，再用这两个分类器互相将自己在未标记样本上置信度较高的标记加入到对方的训练集中去再训练。此后又将集成学习的思想加入到以前的方法中去提高算法性能，基于整个属性集训练一组分类器，利用投票机制对未标记样本进行标记，加入到已标记样本集中再训练，最后的分类结果由一种改进的加权投票机制决定。但是由于上述的方法挑选未标记示例进行标记的过程中以及选择分类器对未见示例进行预测的过程中频繁地使用10倍交叉验证，使得其计算开销很大，因此Z.H.Zhou和M.Li在2005年提出了tri-training的方法，使用三个分类器，如果两个分类器分类结果一致，那么就将该未标记样本加入到已标记样本中去，这样的做法避免了频繁地计算10倍交叉验证，节省了计算开销，同时他们的方法不需要基于冗余的视图。并且他们基于噪音学习理论分析出以较高概率确保这一做法有效的条件，在引入大量未标记样本的情况下，噪声所带来的负面影响可以被抵消。

Tri-Training方法的步骤如下：

输入：未标记数据集D_u，已标记数据集(初始训练集)D₁，测试集T，某种学习算法L。

输出：分类的错误率。

Step1：随即抽样D₁，抽取三次，得到样本数等于|D₁|的三个训练集S_i，S_i，S₃，用L训练出分类器C₁，C₂，C₃。

Step2：对于任一个由算法L训练出的分类器C_i(i＝1，2，3)，维护其独自的训练集S_i(i＝1，2，3)，将满足{x|x∈D_u，且C_j(x)＝C_k(x)，j，k≠i}的无标记样本x加入到S_i中。遍历完D_u后，得到更新后的S_i’。

Step3：对于每个C_i(i＝1，2，3)，若|S_i′|＞|S_i|，则对C_i利用训练集S_i’重新训练，得到分类器C_i’。

Step4：对于每个C_i，若C_i′≠C_i，则转Step2，直到3个分类器都不再更新为止。

Step5：最终的判决结果由这3个分类器的判决结果组合而成。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110257571.X/2.html，转载请声明来源钻瓜专利网。