[发明专利]一种基于聚类信息熵的易区分图像选择方法有效
申请号: | 202110740586.5 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113537315B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 任亚洲;杨之蒙;吴子锐;蒲晓蓉 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/762;G06V10/764;G06V10/40;G06V10/82;G06N3/04;G06N3/084 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 孟仕杰 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息 区分 图像 选择 方法 | ||
本发明涉及深度学习和图像处理领域,具体是一种基于聚类信息熵的易区分图像选择方法,包括如下步骤:首先,利用已有成熟网络提取图片特征;其次,对特征聚类并向产生低熵特征的方向优化特征提取网络;最后,利用函数拟合寻找熵值突变点,选择熵值小于突变点之下的图像。在聚类过程中,当图像的熵值越低,意味着图像中所包含的内容越单一,质量越高,利用上述方法在训练分类模型或聚类模型之前提取易训练的图像样本,可以解决数据噪声大、质量差的问题。
技术领域
本发明涉及深度学习和图像处理领域,具体是指一种基于聚类信息熵的易区分图像选择方法。
背景技术
随着智能手机和社交媒体的普及,图像数据的产生速度越来越快,每天都有海量的图像数据被上传到公开网络上;对这些数据进行分析可以获得大量的有效信息,比如人们的饮食喜好,旅游喜好等等,具有重要的商用价值;但网络上的数据往往质量较差,内容杂乱,数据分析模型往往难以抓住重点,更可能导致模型训练过程中的崩溃;因此,在对海量数据进行分析之前,往往需要进行数据预处理;数据预处理的第一步就是筛出掉不合格的数据,选择质量好的数据往往是预处理的第一步。
图像搜索,数据匹配等操作都以数据的分类或聚类为基础操作,因此,选择出好的,适用于分类与聚类的图像样本是训练一个好的神经网络的必要操作。
发明内容
基于以上问题,本发明提供了一种基于聚类信息熵的易区分图像选择方法,实现了对数据进行分类或聚类操作前,排除掉噪声大、质量差的数据样本。
为解决以上技术问题,本发明采用的技术方案如下:
一种基于聚类信息熵的易区分图像选择方法,包括如下步骤:
步骤一、构建图像数据集,将图像数据集划分为训练集和验证集,并对图像进行预处理;
步骤二、构建特征提取网络,特征提取网络包含特征提取部分以及特征提取部分之后连接一个全连接层和聚类层;
步骤三、将训练集输入构建好的特征提取网络中进行训练并输出每个样本属于各个类的概率分布矩阵P;
步骤四、根据概率分布矩阵P计算目标概率分布矩阵Q;
步骤五、计算概率分布矩阵P和目标概率分布矩阵Q的指数损失的变化率,若指数损失的变化率小于阈值,则停止网络训练保存模型,并进入步骤六,若指数损失的变化率大于阈值,则开始新一轮的网络训练,并进入步骤三;
步骤六、模型收敛后进行多项式函数拟合每一个类中样本的熵值分布,计算拟合函数导数,并设置导数突增点,输出导数突增点以下的样本集形成低熵样本集;
步骤七、利用低熵样本集训练一个分类或聚类模型,并用验证集对分类或聚类模型进行验证。
进一步,所述步骤一中,图像数据集为OFFICE-Home,该图像数据集按照9:1的比例将所有图像划分为训练集和验证集。
进一步,所述步骤一中,图像预处理过程包括对图像进行上采样和下采样操作,其中,上采样采用三次内插法,下采样根据采用目标尺寸以及原有尺寸隔行隔列采样,图像经过上采样和下采样处理后尺寸统一为299*299*3。
进一步,所述步骤二中,特征提取网络使用ResNet50的第一层至倒数第二层作为特征提取部分对图像的特征表示进行提取,初始化参数选择AlexNet参数,参数不冻结,所述全连接层的输出维度和图片类别数量相同,每个神经元均代表一个类,其输出为图像属于该类的可能性,所述聚类层的输出输入维度均为图像类别数量,用于将上一层所输出的样本类别概率做归一化并使其符合高斯分布。
进一步,所述全连接层的神经元数量为31。
进一步,所述聚类层使用K-means算法对提取的特征表示进行聚类,并用得到的类中心初始化聚类层,其中,采用不同的质心初始化值运行算法的次数为20。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110740586.5/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序