[发明专利]一种基于强化学习策略的图像细粒度识别方法有效
申请号: | 201910415457.1 | 申请日: | 2019-05-17 |
公开(公告)号: | CN110135502B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 杨绿溪;邓亭强;廖如天;李春国;徐琴珍 | 申请(专利权)人: | 东南大学 |
主分类号: | G06V10/778 | 分类号: | G06V10/778;G06V10/80 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 蒋昱 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 策略 图像 细粒度 识别 方法 | ||
1.一种基于强化学习策略的图像细粒度识别方法,其特征在于:使用强化学习Actor-Critic策略结合交叉双线性特征去挖掘细粒度图像最具有判别力区域,然后融合原图特征进行预测细粒度类别,方法包括如下步骤:
(1)对细粒度训练数据进行增广,数据增广方式包括数据随机翻转,缩放和裁剪;所述步骤(1)中对图像进行数据增广,具体步骤为:
步骤2.1:使用离线旋转和在线旋转来增强数据,离线旋转是将数据集在[0,359]每隔10°进行旋转,在线旋转是对输入网络的图片随机进行一定角度旋转,除此外,还使用了亮度增强,随机裁剪方式进行数据增强;
(2)构造细粒度识别Actor模块和Critic模块;
所述步骤(2)中对图像进构造细粒度识别Actor模块和Critic模块,具体步骤为:
使用候选框生成网络来产生局部注意力区域的候选集合,Actor的动作是指选出最具有信息量的top M个候选框,Actor对动作的选取根据Critic对上一个状态的评价,即Critic对Actor选取的top M个候选框即上一个动作执行后的状态和上一个动作执行后的环境给出的奖励进行计算价值函数,然后输出一个评价指标,Actor将根据此评价指标来调整下一个动作的选择,也就是下一次top M个候选框的选取方案,这里Critic使用交叉双线性特征来评价Actor对动作的选取情况,并将计算出的优势函数反馈给Actor,来帮助其更新下一次的动作选取;
步骤3.1:利用RPN网络来生成不同尺度的top M个候选框,进而确定输出动作的策略,具体做法为:在基础网络最后一层提取图像特征后,利用不同尺度的卷积层分别生成(14,14),(7,7),(4,4)大小的特征图,然后利用该特征图在原图映射出不同大小的候选框(50,50),(100,100),(200,200),将RPN网络输出的候选框按照置信度大小筛选出top M个候选框,此时Actor便完成了一个策略选择;
步骤3.2:Critic将上一个状态的top M个候选框统一调整尺寸至固定大小(224,224),利用环境给出的状态即top M个候选框和奖励即top M个候选框与相应价值函数的排序一致奖励,计算出新的价值函数,这里的价值函数采用交叉双线性特征来进行计算,其计算方式是对top M个最具有代表性区域经基础网络提取特征,然后计算交叉双线性特征,得到此时的top M个双线性特征,然后利用softmax方法分别得到其类别预测概率,进而获得了其预测置信度,这样便得到了价值函数;
步骤3.3:利用Critic预测的各个动作置信度和top M个候选框的信息量进行排序一致性估计,目的是尽快让信息量大的区域得到大的置信度值,其获得的奖励值也增大,这样在Critic指导下,Actor每次输出的动作将尽可能出现信息量最大的top M个区域的状态;
排序一致性奖励是指Actor给出某个动作状态后的top M个候选框记为事件A与其置信度记为事件B的排序一致性计算,这里采用pairwise分类损失计算该奖励值,具体如式(1.1)所示:
式中,J表示递减函数,此函数鼓励top M个候选区域与置信度排列具有排序一致性;(3)将经Actor-Critic策略产生的top M个候选区域的特征与原图特征进行融合,预测图像细粒度类别;
所述步骤(3)中对融合后的特征进行预测细粒度类别,具体步骤为:
根据步骤2中Actor和Critic模块的配合计算,此时智能体执行最具有信息量的top M个候选区域这一动作后,具有高的优势价值,因此,细粒度图像中的注意力区域也会逐渐被筛选出来,将其与原图特征进行融合后,用于细粒度类别预测;
训练过程采用联合训练方式进行,损失函数由两部分组成,分别是排序一致性损失函数和多区域交叉熵损失函数,排序一致性损失函数表达式为;
式中,J表示一个递减函数,此函数鼓励top M个候选区域与置信度排列具有排序一致性,A表示Actor模块产生的策略选择所输出的动作,B表示Critic模块对环境的状态所输出的置信度;
另一方面,交叉双线性特征的计算采用多区域的交叉熵损失函数,需要注意的是,将输入图像的交叉熵损失函数的计算也包括在下式中,总的损失函数表达式如下
式中,yi表示真实的类别标签,表示网络预测的类别标签信息,C是训练数据集上的类别总数,M表示一共有top M个候选区域;
因此,基于强化学习策略的图像细粒度识别方法的总损失函数为
L=αL1+βL2(1.4)
式中,α和β分别是超参数,至此,一种基于强化学习的图像细粒度识别研究方法便分析完毕。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910415457.1/1.html,转载请声明来源钻瓜专利网。