[发明专利]基于度量学习的细粒度图像分类方法有效

专利信息
申请号: 201910648466.5 申请日: 2019-07-18
公开(公告)号: CN110516700B 公开(公告)日: 2022-12-06
发明(设计)人: 田小林;张杰;王凤鸽;张杨;孟令研;焦李成 申请(专利权)人: 西安电子科技大学
主分类号: G06V10/764 分类号: G06V10/764;G06V10/774;G06V10/82;G06N3/04
代理公司: 陕西电子工业专利中心 61205 代理人: 田文英;王品华
地址: 710071 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于度量学习的细粒度图像分类方法,实现的步骤是:(1)构建单阶段多盒检测网络SSD;(2)生成训练集;(3)构建两输入‑三输出网络;(4)训练两输入‑三输出网络;(5)对细粒度图像中的目标进行分类。本发明构建了两输入‑三输出网络,在生成训练集时对细粒度图像中的目标进行检测并按照矩形框的尺寸选取图像内容,克服了现有技术训练网络时需要借助物体标注框和部位标注点,对细粒度图像进行分类时需要提供图像标注框,分类过程繁琐的问题,使得本发明能够自动检测到细粒度图像中的目标,而且本发明可对任意细粒度图像进行分类,应用范围更加广泛。
搜索关键词: 基于 度量 学习 细粒度 图像 分类 方法
【主权项】:
1.一种基于度量学习的细粒度图像分类方法,其特征在于,在生成训练集时对细粒度图像中的目标进行检测并按照矩形框的尺寸选取图像内容,构建并训练两输入-三输出网络,该方法的具体步骤包括如下:/n(1)构建单阶段多盒检测网络SSD:/n(1a)搭建一个23层的单阶段多盒检测网络SSD;/n(1b)设置23层的单阶段多盒检测网络SSD的各层参数;/n(2)生成训练集:/n(2a)从图像数据集中随机选取至少8000张细粒度图像,每张细粒度图像中包含至少一个待检测目标;/n(2b)将每张细粒度图像输入到单阶段多盒检测网络SSD中,输出该张细粒度图像的K个[x,y,w,h,p]特征向量和M个矩形框,K和M的取值相等,均为输出的细粒度图像中待检测目标的总数的6倍,x,y表示矩形框中心点的坐标位置,w表示矩形框的宽度,h表示矩形框的高度,p表示该矩形框中包含待检测目标的置信度值;/n(2c)对每个矩形框进行非极大值抑制处理,得到一个矩形框集合;/n(2d)按照矩形框集合中每个矩形框的尺寸选取细粒度图像内容,得到选取后的细粒度图像;/n(2e)将选取后的每张细粒度图像水平翻转10度,将水平翻转后的每张细粒度图像缩小到原图的0.9倍,将缩小后的每张细粒度图像水平偏移10度,将水平偏移后的每张细粒度图像竖直偏移10度,将所有预处理后的细粒度图像组成训练集;/n(3)构建两输入-三输出网络:/n(3a)搭建一个36层的两输入-三输出网络,其结构依次为:输入层→第1卷积层→第2卷积层→第3卷积层→第4卷积层→第1最大池化层→第5卷积层→第6卷积层→第2最大池化层→第7卷积层→第8卷积层→第3最大池化层→第9卷积层→第10卷积层→第11卷积层→第12卷积层→第13卷积层→第14卷积层→第15卷积层→第16卷积层→第17卷积层→第18卷积层→第19卷积层→第20卷积层→第21卷积层→第22卷积层→第23卷积层→第24卷积层→第25卷积层→第26卷积层→第27卷积层→第28卷积层→第29卷积层→第30卷积层→第31卷积层→第32卷积层→第33卷积层→第34卷积层→第4最大池化层→第35卷积层→第36卷积层→平均池化层→输出层;/n(3b)设置两输入-三输出网络每层的参数:/n将第1卷积层的卷积核大小设置为3*3*3,卷积步长设置为2;将第2至第7卷积层的卷积核大小均设置为3*3,卷积步长均设置为1,依次设置卷积核的个数为32、64、128、128、256、256;将第8至第34卷积层的卷积核大小均设置为3*3*728,卷积步长均设置为1;将第35卷积层卷积核大小设置为3*3*1024,卷积步长设置为1;将第36卷积层卷积核大小设置为1*1*1536,卷积步长设置为1;将4个最大池化层池化窗口大小均设置为2*2;将平均池化层池化窗口大小设置为1*1;/n(4)训练两输入-三输出网络:/n(4a)将训练集中的样本两两同时输入到两输入-三输出网络中,经过平均池化层,得到训练集中每个训练样本对应的预测标签向量;/n(4b)利用交叉熵函数公式,两输入-三输出网络的输出层计算每个训练样本对应的预测标签向量与其真实标签向量之间的交叉熵;/n(4c)利用二值阈值损失函数公式,两输入-三输出网络的输出层计算每次同时输入的两个训练样本的真实标签向量之间的差异度;/n(4d)利用梯度下降法,更新两输入-三输出网络中卷积层的每一个节点的权值,直到满足终止条件,得到训练好的两输入-三输出网络;/n(5)对细粒度图像中的目标进行分类:/n将待检测的每张细粒度图像输入到两输入-三输出网络中,将该网络输出的细粒度图像中每个目标的预测标签向量,作为该张细粒度图像中每个目标的分类标签。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910648466.5/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top