[发明专利]一种基于多示例主动学习的代表性图像选取方法有效
申请号: | 201910107745.0 | 申请日: | 2019-02-02 |
公开(公告)号: | CN109977994B | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 朱威;王义锋;陈悦峰;滕游;陈朋;郑雅羽 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州赛科专利代理事务所(普通合伙) 33230 | 代理人: | 郭薇 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及机器学习领域,具体涉及一种基于多示例主动学习的代表性图像选取方法,包括以下步骤:(1)图像原始特征提取;(2)原始特征降维;(3)利用降维的特征进行原始样本图像预聚类;(4)选取初始训练样本;(5)训练分类器;(6)调整难分类样本集合;(7)调整原始样本集合;(8)重复执行步骤(5)至(7)进行迭代训练,直至收敛;(9)输出代表性图像。通过预聚类、多示例学习和主动学习方法从原始样本中筛选出对分类器分类精度贡献最大的样本集合,再对这些样本进行标注用于其它机器学习任务,这样不仅可以降低标注耗费的人力,而且可以滤除一部分噪声样本,保证其它机器学习任务的有效运行。 | ||
搜索关键词: | 一种 基于 示例 主动 学习 代表性 图像 选取 方法 | ||
【主权项】:
1.一种基于多示例主动学习的代表性图像选取方法,其特征在于:所述方法包括以下步骤:(1)图像原始特征提取:将n张原始输入图像都调整到统一大小,并进行灰度化以及使用Gamma矫正方法进行灰度归一化,作为原始样本图像;利用HOG算法获取原始样本图像的HOG特征;将所有原始样本图像的HOG特征组合成原始特征矩阵Xs;(2)原始特征降维:使用PCA算法对原始特征矩阵Xs进行降维,得到降维后的特征集合X;(3)图像预聚类:基于降维后的特征集合X,使用DBSCAN算法对原始样本图像进行预聚类,得到聚类集合C;(4)选取初始训练样本:初始化原始样本集合Dp、训练样本集合Dtrain、难分类样本集合Dhs为空;将所有原始样本图像加入到原始样本集合Dp;计算聚类集合C中聚类簇的密度中心,选取密度中心邻近区域的原始样本图像为初始训练样本,加入训练样本集合Dtrain;加入训练样本集合的原始样本图像从原始样本集合中移除,所有样本有且仅有唯一所属的集合;(5)训练分类器:采用Xception网络作为分类器,将Xception网络最后一个全连接层的输出个数设置为聚类结果的类别数,使用训练样本集合Dtrain中的样本训练分类器;(6)调整难分类样本集合:若难分类样本集合为空,则跳过该步骤,执行步骤(7),否则使用步骤(5)的分类器对难分类样本集合中的每个样本进行预测,根据预测结果和BvSB准则计算样本所属类别概率最大的前两个类别的概率差值diff,将差值diff大于阈值Vthre的样本从难分类样本集合Dhs中移动到原始样本集合Dp;(7)调整原始样本集合:使用步骤(5)的分类器对原始样本集合Dp中的每个样本进行预测,根据预测结果和BvSB准则计算样本所属类别概率最大的前两个类别的概率差值diff,将差值diff最大的u个样本从原始样本集合Dp中移动到训练样本集合Dtrain,将差值diff最小的v个样本从原始样本集合Dp中移动到难分类样本集合Dhs;(8)迭代训练:重复执行步骤(5)至步骤(7),以调整后的训练样本集合Dtrain重新训练分类器,使用得到的分类器分别对难分类样本集合Dhs和原始样本集合Dp进行预测,根据预测结果和BvSB准则调整三个样本集合中的样本,直至原始样本集合Dp中的样本数量小于指定数量p,结束迭代;p=n×αt,其中n为输入样本总数,αt的取值范围为[0.1,0.3];(9)输出代表性图像:输出的代表性图像是基于难分类样本集合Dhs和训练样本集合Dtrain选取:对于难分类样本集合Dhs,选择其所有样本对应的原始输入图像作为代表性图像;对于训练样本集合Dtrain,按照比例选择集合中q个样本对应的原始输入图像作为代表性图像,其中,q=nh×αo,nh为难分类样本集合Dhs中的样本总数,αo的取值范围为[0.05,0.4]。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910107745.0/,转载请声明来源钻瓜专利网。