[发明专利]一种基于主动学习和模型剪枝的集成学习方法及装置在审
申请号: | 201611060500.X | 申请日: | 2016-11-28 |
公开(公告)号: | CN106779086A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 刘宏志;姜正申;易晖;赵鹏;吴中海;张兴 | 申请(专利权)人: | 北京大学;北京华品博睿网络技术有限公司 |
主分类号: | G06N99/00 | 分类号: | G06N99/00 |
代理公司: | 北京君泊知识产权代理有限公司11496 | 代理人: | 王程远 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主动 学习 模型 剪枝 集成 学习方法 装置 | ||
1.一种综合主动学习技术和模型剪枝技术的集成学习方法,其特征在于,所述方法包括:
利用一组未标记的样本集合和一组已标记的样本集合作为输入;
利用已标记样本集合训练基本的机器学习模型集合;
利用主动学习方法提高已训练的机器学习模型集合的准确度;
利用模型剪枝方法,对模型集合进行筛选;
集成筛选后的模型集合,作为最终的机器学习模型。
2.根据权利要求1所述的方法,其特征在于,所述主动学习方法,包括:
利用一组未标记样本,得到模型集合中每个模型对每个样本的预测值;
对每个未标记样本,利用模型集合预测出的一组预测值的平均值计算该样本对模型集合的适用程度;
使用人工标注所有未标记样本中适用程度最高的N个样本,其中N为预先指定的值;
利用标注后的这N个样本重新训练模型集合;
不断重复,直到学习效果无法继续提高为止。
3.根据权利要求2所述的方法,其特征在于,所述计算每个样本对模型集合的适用程度,包括:
对某个样本,记各模型预测值的平均值为依下式计算样本对模型集合的适用程度:
4.根据权利要求1所述的方法,其特征在于,所述模型剪枝方法,包括:
使用一组已标记的样本集合以及一组训练好的机器学习模型作为输入;
初始化模型集合,只包含单独使用效果最好的模型;
依次加入对当前已选模型集合适用程度最高的模型;
不断重复,直到学习效果无法继续提高为止。
5.根据权利要求4所述的方法,其特征在于,所述适用程度的计算方法,包括:
设某样本标准答案为y,其预测值的平均为依下式计算模型集合对该样本的适用程度:
对样本集合中所有样本的适用程度求和,即得到模型集合对样本集合的适用程度。
6.根据权利要求1所述的方法,其特征在于,所述模型集合的集成方法,包括:
可使用包括投票法、加权平均法、元学习法等诸多方法进行集成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北京华品博睿网络技术有限公司,未经北京大学;北京华品博睿网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611060500.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于人件服务的态势认知计算架构
- 下一篇:一种通用机器学习数据分析平台