[发明专利]一种基于主动学习和模型剪枝的集成学习方法及装置在审
申请号: | 201611060500.X | 申请日: | 2016-11-28 |
公开(公告)号: | CN106779086A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 刘宏志;姜正申;易晖;赵鹏;吴中海;张兴 | 申请(专利权)人: | 北京大学;北京华品博睿网络技术有限公司 |
主分类号: | G06N99/00 | 分类号: | G06N99/00 |
代理公司: | 北京君泊知识产权代理有限公司11496 | 代理人: | 王程远 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主动 学习 模型 剪枝 集成 学习方法 装置 | ||
技术领域
本发明属于机器学习中的集成学习领域,尤其涉及机器学习中的主动学习和集成学习中的模型剪枝方法及装置。
背景技术
主动学习:
机器学习方法正在取得越来越广泛的应用,并深刻的影响着人们的日常生活。
目前,机器学习中普遍存在的一个问题是标准答案获取成本高。尽管随着大数据时代的到来,数据量变得越来越庞大,然而这些数据大多是原始的、粗糙的、没有经过人工标记的,例如网络上大量的图片数据,并没有被标记上图片的主题、包含人的数量等信息,而这些信息对于机器学习而言是十分宝贵的。不使用标准答案的机器学习方法称为“无监督学习”,相应的,使用标准答案的方法称为“有监督学习”。通常,有监督学习比无监督学习的效果要好很多。
主动学习技术就是为了应对这种情况而提出来的。这种技术利用一些标准对输入的未标记样本进行判断,如果判断此样本包含的信息量比较大,可以有效的训练机器学习模型,那么就将此样本交给人类来进行标注,然后使用标注后的样本训练机器学习模型。这样,随着一个一个的样本被标注和加入训练集合,机器学习模型可以很快的达到较为理想的水平。有研究表明,达到同样的学习效果,主动学习可以比传统方法少用90%的样本数量。
然而,当前的主动学习技术对样本有效性的判断还存在一定的问题,很多情况下,选择出来用以训练机器学习模型的样本,并不是候选样本中最好的,从而限制了训练后的机器学习模型的效果。
集成学习:
在众多的机器学习方法中,集成学习是最为成功的一类方法,其中随机森林、梯度提升(gradient boosting)等方法是集成学习的典型代表。集成学习的基本想法是组合众多基本的机器学习模型的结果,以达到提升学习效果的目的。
集成学习方法主要包含三个部分:模型的生成,模型的剪枝,模型的集成。
模型的生成需要完成基分类器的训练任务。对于输入的训练数据集,训练出若干个不同的机器学习模型,且这些模型可以各自对输入样本进行预测。
模型的剪枝需要完成冗余模型的删减任务。由于模型生成时十分容易造成冗余和相关,因此对这些模型进行删减十分重要。已有研究表明,使用合适的剪枝方法可以提高集成学习的学习效果。
模型的集成需要对删减后的模型进行集成。目前集成方法比较多,常用的有投票法、加权平均法等。
无论在理论还是实践方面,集成学习都已经被证明可以达到比单个机器学习模型更好的水平,并且学习效果随着集成的模型数目的增多而变得更好。然而,在实际应用中,集成太多的模型会导致速度变慢,性能降低,并且对硬件要求也更高。因此,模型的剪枝是一个相当重要的环节。
简单的根据模型的准确率进行选择已被证明是效果不佳的,因为会留下许多相似的或相关的模型。当前的模型剪枝方法,大多着眼于模型的多样性,即尽量留下互相之间不相似的模型。但是,过于强调多样性也会导致集成后的效果一般。
发明内容
基于上述关于主动学习技术和集成学习技术的情况,提出了一种适用于集成学习情况下的主动学习方法。
一种适用于集成学习情况下的主动学习方法,包括:
接收一组未标记的样本集合,以及一组使用少量有标记数据训练好的机器学习模型;
将未标记样本集合内的样本逐个输入模型集合,得到每个模型对该样本的预测值;
对每个样本,根据得到的一组预测值,计算其平均预测值然后根据如下公式计算其多样性或者称为适用程度:
此公式来源于集成学习中的泛化误差分解理论,在二分类问题中,如果使用逻辑回归损失(logistic loss)来度量分类效果的好坏,那么此公式度量的就是一组机器学习模型的“歧义度”(Ambiguity),因此也被广泛接受为多样性的度量。
从所有未标记样本中,选出适用程度最高的若干个(记为N个)样本,请求人工标注;
标注完成后,将此N个样本加入已标注的样本集合,并重新训练模型集合;
此过程不断重复,直到学习效果无法继续提高为止。
基于上述关于模型剪枝技术的情况,提供了一种模型剪枝方法。
一种模型剪枝方法,包括:
接收一组已标记的样本集合作为验证集,以及一组训练好的机器学习模型;
从这组模型中,选择效果最好的模型作为第一个被选出来的模型,组成留用集合,其他模型组成候选集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北京华品博睿网络技术有限公司,未经北京大学;北京华品博睿网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611060500.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于人件服务的态势认知计算架构
- 下一篇:一种通用机器学习数据分析平台