[发明专利]一种基于元学习的主动采样方法在审
申请号: | 201910725779.6 | 申请日: | 2019-08-07 |
公开(公告)号: | CN110569982A | 公开(公告)日: | 2019-12-13 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 南京智谷人工智能研究院有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62 |
代理公司: | 32282 南京汇恒知识产权代理事务所(普通合伙) | 代理人: | 夏恒霞 |
地址: | 210000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类模型 回归模型 特征空间 数据集 标记样本 底层特征 特征独立 主动采样 学习 查询 输出 衡量 | ||
1.一种基于元学习的主动采样方法,包括以下步骤:
(一)通过在大量已有标记的数据集上模拟进行主动学习的过程,根据Meta特征设计规则,获取足够量的MetaData数据;
(二)根据步骤(一)中获取的MetaData数据训练Meta回归模型M;
(三)在当前主动学习任务上,根据Meta特征设计规则,计算每个未标记样本的Meta特征;
(四)将(三)中Meta数据输入至步骤(二)中Meta回归模型M,选择输出值最大的未标记样本,向用户查询真实标记;
(五)根据得到的真实标记更新分类模型C;
(六)返回步骤(三)或结束并输出分类模型C。
2.根据权利要求1所述的一种基于元学习的主动学习方法,其特征在于:所述步骤(一)在大量已有标记的数据集上获取MetaData数据,具体方法为:
假设当前分类模型为C,当前考虑的未标记样本为x;设MetaData数据集结构为[Z,ΔP],其中Z为设计的Meta特征,ΔP为分类模型C在加入未标记样本x重新训练后,在测试集上性能前后变化值。
3.根据权利要求2所述的一种基于元学习的主动学习方法,其特征在于:Meta特征Z设计具体细节为:
1)关于数据集的传统的元特征
a)简单的元特征
样本的数量及其对数,特征的数量及其对数,样本数与特征数之比及其对数,特征数与样本数之比及其对数;
b)统计特征
计算所有数值特征的峰度(kurtosis),取其最小值,最大值,均值,标准差;
计算所有数值特征的偏度(skewness),取其最小值,最大值,均值,标准差;
c)PCA统计特征
利用主成分分析PCA的方法,将主成分占比95%的每个成分所解释的方差量进行求和;利用PCA将数据集降维至一维后,计算该特征值的峰度和偏度;
2)样本本身的信息
a)数据集特征维度,所述特征维度为属性维度;
b)已标记的数据集中正样本的比例,负样本的比例;
c)根据当前模型的预测值,计算未标记数据集中,模型预测为正样本的比例,负样本的比例;
d)在整个数据集(包含已标记和未标记)中进行聚类,获取10个聚类中心点ai,并按照每个中心点与x的距离从小到大排序记为ai i=1,2,……10,这10个点的顺序是根据不同的x变化的;计算x与上述10个代表性样本数据点的欧氏距离,并做归一化处理:其中xj是在整个数据集范围内的;
e)按照当前模型对已标记数据集的预测值进行排序,选出10等分点的数据bi i=1,2,……10。计算x与上述10个代表性样本数据点的欧氏距离,并做归一化处理:其中xj是在整个数据集范围内的;
f)按照当前模型对未标记数据集的预测值进行排序,选出10等分点的数据ci i=1,2,……10;计算x与上述10个代表性样本数据点的欧氏距离,并做归一化处理:其中xj是在整个数据集范围内的;
3)模型本身的信息
a)在已标记数据上计算TP、FP、TN、FN的比例;
b)在已标记数据上按照当前模型对已标记数据集的预测值做归一化处理(在整个数据集上选出最小最大值进行归一化),并进行排序,选出10等分点的值记录;
c)计算2)中10个值(归一化后)的均值和方差;
d)在未标记数据上,根据当前模型的预测值,计算未标记数据集中,模型预测为正样本的比例,负样本的比例;
e)按照当前模型对未标记数据集的预测值做归一化处理(在整个数据集上选出最小最大值进行归一化),并进行排序,选出10等分点的值记录;
f)计算e)中10个值的均值和方差;
g)将在此轮之前的五轮主动学习过程中,上述a)到f)的特征全部用作本轮的特征;
4)模型在样本上预测的信息
首先根据当前模型C对整个数据集的预测值,做归一化处理;
a)记录C(x);
b)计算当前C(x)与a,b,c三组共30个样本预测值的差;
c)将在此轮之前的五轮主动学习过程中,上述1)到2)的特征全部用作本轮的特征,注意a、b、c三组样本都是本轮选出来的,而不是前5轮选出的;
其中ΔP为分类模型C在加入未标记样本x重新训练后,在测试集上性能前后变化值;分类模型的性能在本文中选取为分类模型在测试集上的准确率,针对不同任务可以选择不同的评测标准。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京智谷人工智能研究院有限公司,未经南京智谷人工智能研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910725779.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:散煤燃用量确定方法及装置
- 下一篇:一种软间隔自动化滑窗方法