[发明专利]一种基于元学习的主动采样方法在审

申请号：	201910725779.6	申请日：	2019-08-07
公开（公告）号：	CN110569982A	公开（公告）日：	2019-12-13
发明（设计）人：	不公告发明人	申请（专利权）人：	南京智谷人工智能研究院有限公司
主分类号：	G06N20/00	分类号：	G06N20/00;G06K9/62
代理公司：	32282 南京汇恒知识产权代理事务所(普通合伙)	代理人：	夏恒霞
地址：	210000 江苏省南京***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分类模型回归模型特征空间数据集标记样本底层特征特征独立主动采样学习查询输出衡量
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于元学习的主动采样方法，该方法借鉴元学习的思想，通过之前得到的主动学任务的经验(MetaData)用一个回归模型M去学习一个查询策略的指标。回归模型M的输入是根据我们设计的一些关于某个未标记样本x和当前分类模型C的底层特征，这些设计的Meta特征与数据集的特征空间和分类模型的形式无关，输出值是衡量x对于提升分类模型C的作用大小；并且，这些Meta特征独立于数据集的特征空间和分类模型的形式，因此具有更好的泛化能力。

技术领域

本发明涉及一种基于元学习的主动采样方法；属于机器学习技术领域。

背景技术

在大数据时代的背景下，我们能够轻易地获得大量的未标记数据集，而绝大部分机器学习模型，尤其是深度学习模型都需要大量的有标记样本进行训练。然而，获取有标记样本是十分困难且昂贵的，特别是在需要高度相关的专业知识背景的领域，例如医学图像领域。主动学习的概念正是针对上述问题而提出的，目的是挑选尽可能少的未标记样本进行标记，使得模型的性能达到一个令人满意的效果。

目前，大部分主动采样(AL)策略都是针对不同的分类任务而设计相应的指标，在面对不同任务时，没有一种主动采样策略能够明显优于其他策略。因此，研究者提出了许多Meta-AL方法来自动选择最佳策略。但是它们需要对分类模型性能进行可靠的评估以此去选择最佳的策略，因为有标记的数据很少，这往往是不准确的。这些Meta-AL的方法也很难超越现有人为设计AL策略的组合。鉴于上述原因，有必要对采样方法进行改进。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明的目的在于提供一种基于元学习的主动采样方法。

为实现上述目的，本发明采用的技术方案为：

一种基于元学习的主动采样方法，包括以下步骤：

(一)通过在大量已有标记的数据集上模拟进行主动学习的过程，根据 Meta特征设计规则，获取足够量的MetaData数据；

(二)根据步骤(一)中获取的MetaData数据训练Meta回归模型M；

(三)在当前主动学习任务上，根据Meta特征设计规则，计算每个未标记样本的Meta特征；

(四)将(三)中Meta数据输入至步骤(二)中Meta回归模型M，选择输出值最大的未标记样本，向用户查询真实标记；

(五)根据得到的真实标记更新模型；

(六)返回步骤(三)或结束并输出分类模型C。

进一步的，所述步骤(一)在大量已有标记的数据集上获取MetaData 数据，具体方法为：

假设当前分类模型为C，当前考虑的未标记样本为x；设MetaData数据集结构为[Z,ΔP]，其中Z为设计的Meta特征，ΔP为分类模型C在加入未标记样本x重新训练后，在测试集上性能前后变化值，其中Meta特征Z设计具体细节为：