[发明专利]一种基于生成对抗模型的主动学习方法在审
申请号: | 202010368402.2 | 申请日: | 2020-04-30 |
公开(公告)号: | CN111563590A | 公开(公告)日: | 2020-08-21 |
发明(设计)人: | 罗荣华;王翔 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06K9/62 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 模型 主动 学习方法 | ||
1.一种基于生成对抗模型的主动学习方法,其特征在于,包括以下步骤:
步骤1、构建生成对抗模型,利用已标注数据集和未标注数据集训练生成对抗模型,并使用训练后的生成对抗模型分别将已标注数据集和未标注数据集中的每个样本转换成某个隐藏特征空间中的向量得到已标注数据集的转换向量和未标注数据集的转换向量;
步骤2、利用步骤1中得到的已标注数据集的转换向量对基准分类器进行训练,得到训练后的基准分类器;
步骤3、使用当前的训练后的基准分类器对测试集中的样本进行测试,并检查预设终止条件是否达到,若预设终止条件未达到,则从未标注数据集中选择真实基准分类器决策边界周围的样本;否则跳至步骤6;
步骤4、让标注者标注步骤3中选出的样本的类别,加入已标记数据集,完成已标记数据集的更新;
步骤5、利用更新后的已标注数据集的转换向量对步骤3中的基准分类器进行训练,得到训练后的基准分类器,完成基准分类器的更新,跳至步骤3;
步骤6、预设终止条件达成,最终基准分类器训练完成,完成基于生成对抗模型的主动学习。
2.根据权利要求1所述的一种基于生成对抗模型的主动学习方法,其特征在于,步骤1中,从未标注数据集中选择高价值样本时,目标是选出真实模型的决策边界周围的样本,其中需要标注者标记决策边界,此时需要将隐藏特征空间中的向量转换成图像,给标注者直观的视觉展现,因此需要在两种表达空间中进行转换,一个是观察数据所在的数据空间,一个是隐变量所在的隐空间,后者是前者的一种抽象;生成网络用于建立从隐空间到数据空间的映射,视为一个译码器D(z)=x;推断网络用于建立从数据空间到隐空间的映射,视为一个编码器E(x)=z;其中x为原图像样本,z为原图像经推断网络得到的隐变量,D(·)为代表译码器的生成网络,E(·)为代表编码器的推断网络;
标准的GAN拥有生成器和判别器,生成器完成z→D(z)的映射,z从先验分布中进行采样,经过神经网络,得到合成样本;判别器区分来自生成网络的模拟样本和来自实际数据集的真实样本;但是由于标准的GAN没有推断网络,需要将推断网络加入GANs框架下;
所述生成对抗模型为将推断网络和生成网络联合加入GANs框架下的ALI(Adversarially Learned Inference)模型,该模型将推断网络和生成网络一起放入GANs框架下,进而联合训练生成网络和推断网络。
3.根据权利要求1所述的一种基于生成对抗模型的主动学习方法,其特征在于,步骤2中,所述基准分类器为任何可以进行二分类任务的模型。
4.根据权利要求1所述的一种基于生成对抗模型的主动学习方法,其特征在于,步骤3中,所述预设终止条件包括选择标注的样本数量达到预设数目或基准分类器达到预设的性能指标数值。
5.根据权利要求1所述的一种基于生成对抗模型的主动学习方法,其特征在于,步骤3中,所述从未标注数据集中选出真实基准分类器决策边界周围的样本具体包括如下步骤:
步骤3.1、计算可容纳未标记数据集和已标记数据集中所有样本的最小超球面;
步骤3.2、通过K-means算法对未标注数据集的转换向量进行聚类得到聚类中心;
步骤3.3、使用步骤3.2中得到的聚类中心对当前基准分类器的决策边界作垂线;
步骤3.4、计算步骤3.3中所作垂线与步骤3.1中得到的最小超球面的两个交点,得到两个交点之间的线段;
步骤3.5、从步骤3.4中得到的线段上均匀采样预定数量个采样点;
步骤3.6、使用生成对抗模型将采样点按顺序生成图像序列,让标注者标记所述图像序列类别发生变化的采样点;
步骤3.7、通过最近邻算法得到离标记的采样点最近的真实样本,该样本为最终选择的样本。
6.根据权利要求5所述的一种基于生成对抗模型的主动学习方法,其特征在于,所述计算可容纳未标记数据集和已标记数据集中所有样本的最小超球面的方法,具体如下:
最小超球面的球心:
最小超球面的半径:
其中,zi为未标记数据集和已标记数据集中的第i个样本对应的隐变量,N为所有样本的数量。
7.根据权利要求5所述的一种基于生成对抗模型的主动学习方法,其特征在于,所述最近邻算法中,采用的距离度量包括欧式距离,计算公式如下:
其中,x、y为任意两个样本,x1,…,xn为样本x在n个维度上的值,y1,…,yn为样本y在n个维度上的值,d(x,y)为样本x与样本y之间的欧式距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010368402.2/1.html,转载请声明来源钻瓜专利网。