[发明专利]基于主动半监督学习的图像分类方法在审

专利信息
申请号: 201811379861.X 申请日: 2018-11-19
公开(公告)号: CN109376796A 公开(公告)日: 2019-02-22
发明(设计)人: 杨猛;钟琴 申请(专利权)人: 中山大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 林丽明
地址: 510260 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 半监督学习 标记样本 图像分类 数据集中 训练模型 主动学习 迭代 样本 图像处理技术 测试样本 迭代更新 算法模型 随机选择 训练数据 样本添加 字典学习 半监督 有效地 算法 信息量 收敛 引入 概率 重复
【说明书】:

发明涉及图像处理技术领域,提出一种基于主动半监督学习的图像分类方法,包括以下步骤:随机选择部分标记样本和所有未标记样本,用于训练模型中的半监督字典学习组件;基于预估计类概率的准则从未标记的数据集中迭代地选择含有信息量最大的未标记样本,即最翔实样本;引入一个用户来标记所述最翔实样本,然后将完成标记的最翔实样本添加到标记的数据集中,用于训练模型中的主动学习组件;重复上述步骤迭代更新模型直至算法最终收敛或达到某一迭代次数;对测试样本使用模型进行图像分类。本发明解决了类间表达能力差的问题,结合半监督学习和主动学习,有效地利用所有训练数据,提高了该算法模型的性能。

技术领域

本发明涉及图像处理技术领域,更具体地,涉及一种基于主动半监督学习的图像分类方法。

背景技术

随着手机、照相机和社交网络的发展,大量的照片通过用户被迅速地创造出来,而为了能够利用这些照片,我们需要一种以简单、快速和有效的方式收集、分类和组织它们的自动化分类的网络相册,而提供自动化分类技术的基础是能够通过数据训练一个鲁棒的机器学习分类模型。但是,收集标记数据用于训练分类模型是机器学习中最耗时和耗力的工作之一。在现实环境中,通常标记的训练样本非常有限,而获得丰富的未标记训练样本则相对容易。

半监督学习和主动学习是当训练数据中的标记样本数量稀缺时,能够得到判别性更强模型的两种重要的机器学习方法。半监督学习主要通过利用未标记训练样本从而提升模型的泛化能力增强模型的鲁棒性。现有的一些半监督学习算法包括:生成式模型,协同训练(Co-Training),基于图的半监督学习(graph-based semi-supervised learning),半监督支持向量机(S3VM),半监督字典学习(SSDL)。尽管半监督学习算法在解决少量有标签数据和大量无标签数据的模型训练问题上取得了不错的成绩,但当存在大量的噪声样本和离群值时,直接使用未标记数据可能会显著地减少模型的性能。而主动学习则是通过以交互的方式训练模型,使得其能够基于在每次迭代中学习的模型来选择最有代表性的数据进行下一轮的迭代。然而,主动学习的性能还需要依赖于从相当有限的标记训练数据中能够学习到高判别性的初始分类器。

发明内容

本发明为克服上述现有技术所述的不能直接使用未标记数据、依赖于初始分类器的性能等至少一种缺陷,提供一种基于主动半监督学习的图像分类方法,将半监督学习和主动学习相结合,能够充分利用所有的训练数据,且有效提升模型的性能。

为解决上述技术问题,本发明的技术方案如下:

基于主动半监督学习的图像分类方法,包括以下步骤:

S1:随机选择部分标记样本和所有未标记样本,用于训练模型中的半监督字典学习组件;

S2:采用基于预估计类概率的准则从未标记的数据集中迭代地选择含有信息量最大的未标记样本,即最翔实样本;

S3:引入一个用户来标记所述最翔实样本,然后将完成标记的最翔实样本添加到标记的数据集中,用于训练模型中的主动学习组件;

S4:重复S1~S3步骤,通过新的标记样本和剩余未标记数据来迭代更新模型,直至算法最终收敛或达到某一迭代次数;

S5:对测试样本使用模型进行图像分类。

本技术方案通过使用半监督字典学习来训练初始字典,使其具有良好的类内代表性,再通过主动学习技术基于预估计类概率的准则选择信息量最大的样本,引入一个用户注释它,并将用户注释后的样本添加到标记的数据集中,参与下一轮字典的训练,直到算法最终收敛或达到某一迭代次数,解决了类间表达能力差的问题,结合半监督学习和主动学习,有效地利用所有训练数据,提高了该算法模型的性能。

优选地,S1步骤中的半监督字典学习组件公式化为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811379861.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top