[发明专利]一种面向数据驱动建模的主动学习方法在审
申请号: | 201910332775.1 | 申请日: | 2019-04-24 |
公开(公告)号: | CN110070131A | 公开(公告)日: | 2019-07-30 |
发明(设计)人: | 刘宏刚;李峰;刘红丽 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 刘小峰 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基准分类 预测结果 不确定性 阈值条件 训练集 剩余样本 数据驱动 主动学习 建模 排序 样本 经济成本 随机选择 选择功能 循环重复 训练样本 比对 响应 预测 | ||
一种面向数据驱动建模的主动学习方法,包括以下步骤:1.从训练集中随机选择K个样本构成初始训练集,并利用初始训练集对基准分类器训练;2.利用训练后的基准分类器对训练集中剩余样本进行预测得到预测结果,并与阈值条件比对;3.响应于预测结果不满足阈值条件,基于预测结果计算基准分类器对剩余样本的不确定性,并将不确定性由高到低排序;4.将排序中不确定性最高的前N个样本加入到初始训练集中;5.利用初始训练集对基准分类器训练;6.循环重复上述步骤2到步骤5,直到在步骤2中预测结果满足阈值条件。通过本发明的方法,能够实现高价值训练样本的选择功能,并且在降低训练时间、经济成本的同时提升模型的泛化能力。
技术领域
本领域涉及计算机领域,并且更具体地涉及一种面向数据驱动建模的主动学习方法。
背景技术
在人工智能方法实际应用中,经常面临计算资源有限及时间限制要求等实际难题,训练样本数量是影响以上两个难题的关键因素。主动学习算法能有效使用更有价值训练样本进行模型训练,对于减少训练模型所需计算与时间资源、专家标注代价及成本等方面有重要作用,是人工智能方向的研究课题之一,在多个领域如文档分类及信息提取、图像检索、入侵检测领域具有很高的应用价值。
数据驱动建模是指采集海量数据并将数据组织形成信息,之后对相关信息进行整合和提取,在大量数据的基础上训练自动化的决策模型。在利用海量数据建立模型过程中,存在以下两个实际问题(1)真实数据中存在大量的未标记样本数据,进行模型建立前需要大量专家进行标注工作(2)随着深度学习模型复杂度越来越高,无疑需要耗费大量时间及计算资源利用海量数据建模。主动学习算法能够从海量未标记样本或未训练样本中挑选更有价值样本,从训练时间、空间、经济成本等多方面对数据驱动建模方法进行深度优化。
主动学习算法根据未训练样本的获取方式不同,分为基于流的主动学习算法及基于池的主动学习两种方法。在基于流的主动学习算法中,未训练样本依次提供给样本选择算法进行判断选择,其未训练样本间不能进行相互比较。在基于池的主动学习算法中,则是从未训练的大量样本中,根据样本选择策略选择有价值样本进行模型更新,其中样本选择策略主要包括以下三种方法。
基于不确定度缩减方法:选择当前基准分类器最不能确定其分类的样本进行训练,这种方法以信息熵作为衡量样本所含信息量大小的度量。这种方法可以任意选择合适的基准分类器如逻辑回归、SVM、GBDT等模型,但有可能选择到孤立点。
基于期望误差降低的方法:首先定义一种损失函数,用来估计分类器的期望误差,然后对未训练样本集合的每一个样本,估计将其加入训练集合给当前分类器带来的损失,选择能够使期望误差最低的样本进行标注。
基于版本空间缩减的方法:使用可获得的训练样本集合训练一组分类器,这组分类器构成委员会,然后由委员会来分类候选样本集合中的未标记样本,选择出委员会分类“最不一致”的样本。判断“最不一致”的常用方法有投票熵、KL散度等。
总体而言,主动学习算法现有的技术存在以下不足:
1)多分类问题样本选择过程中存在选择到孤立点情形;
2)样本选择过程中存在冗余样本;
3)在处理多类分类问题时主动学习算法选择样本质量较差;
4)对于给定的任意样本集,无法保证在选出的训练集中每类样本的占比基本均衡。
针对上述不足,不断提高主动学习算法的性能与鲁棒性,是亟需解决的难题。
发明内容
有鉴于此,本发明实施例的目的在于提出一种面向数据驱动建模的主动学习方法,能够实现高价值训练样本的选择功能,并且在降低训练时间、经济成本的同时提升模型的泛化能力。
基于上述目的,本发明的实施例的一个方面提供了一种面向数据驱动建模的主动学习方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910332775.1/2.html,转载请声明来源钻瓜专利网。