[发明专利]一种基于强化学习的视觉关系实例学习方法有效
申请号: | 202110152379.8 | 申请日: | 2021-02-04 |
公开(公告)号: | CN112989088B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 杜友田;王航;王雪 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06N3/045;G06N3/08;G06N20/00 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 视觉 关系 实例 学习方法 | ||
1.一种基于强化学习的视觉关系实例学习方法,其特征在于,包括如下步骤:
步骤1,输入训练集数据,获取每一幅图像及对应的视觉关系集合,由以下向量串联组成状态向量:整幅图像的视觉特征、两个物体subject和object实例搜索框的视觉特征、两个智能体的历史动作向量、subject和object实例搜索框之间的空间关系特征以及利用Skip-thought语言模型编码当前视觉关系得到的文本特征,所述两个智能体为用于搜索subject实例搜索框的S-agent和用于搜索object实例搜索框的O-agent,所述历史动作向量是将过去10个时刻执行过的动作向量串联;
步骤2,在每一时刻,S-agent和O-agent分别执行针对subject和object实例搜索框的变换动作,从而生成下一时刻的搜索框,然后得到相应的奖励,并判断搜索是否终止;
步骤3,将当前时刻的状态、当前时刻所采取的动作、得到的奖励、下一时刻的状态以及搜索是否终止的判断标志存入经验回放池;
步骤4,重复步骤1-3直到经验回放池达到可采样的最小数量,此时从中随机采样一部分样本,分别训练S-agent和O-agent的当前Q网络及其参数,每隔一定频率利用当前Q网络的参数分别更新S-agent和O-agent的目标Q网络的参数。
2.根据权利要求1所述基于强化学习的视觉关系实例学习方法,其特征在于,所述步骤1中,定义状态向量St为如下的形式:
其中,v(It)是当前时刻t正在处理的图像It的视觉特征向量,表示当前时刻物体subject的实例搜索框,即是其左上角坐标,是其宽度和长度,代表实例搜索框的视觉特征向量,表示将智能体S-agent在过去10个时刻的动作向量串联起来构成的历史动作向量,表示当前时刻物体object的实例搜索框,即是其左上角坐标,是其宽度和长度,代表实例搜索框的视觉特征向量,表示将智能体O-agent在过去10个时刻的动作向量串联起来构成的历史动作向量,w(et)是利用Skip-thought语言模型生成的关于t时刻的视觉关系et的语义嵌入向量,代表实例搜索框和之间的空间关系特征向量,其定义如下:
其中,和分别是两个实例搜索框之间的交集和并集。
3.根据权利要求2所述基于强化学习的视觉关系实例学习方法,其特征在于,利用GMM模型将离散成400维的向量作为两个实例搜索框之间最终的空间关系特征向量。
4.根据权利要求3所述基于强化学习的视觉关系实例学习方法,其特征在于,所述步骤2中,将变换动作定义为一个9维的向量,向量的元素为1代表执行该动作,为0则不执行,定义的9维动作向量分别对应着如下的9个动作:水平向右和向左移动、垂直向上和向下移动、放大和缩小、改变高度比率大小、改变宽度比率大小以及终止搜索;
在每一时刻,S-agent执行一个选定的变换动作使得关于subject的实例搜索框的宽度和高度发生如下变化:
在每一时刻,O-agent执行一个选定的变换动作使得关于object的实例搜索框的宽度和高度发生如下变化:
其中,α∈[0,1]是变化参数,和分别是关于subject的实例搜索框的宽度和高度变化量;和分别是关于object的实例搜索框的宽度和高度变化量。
5.根据权利要求4所述基于强化学习的视觉关系实例学习方法,其特征在于,所述步骤2中,S-agent执行动作使得关于subject的实例搜索框从当前搜索框跳转到下一搜索框时,获得的奖励的定义如下:
O-agent执行动作使得关于object的实例搜索框从当前搜索框跳转到下一搜索框获得的奖励定义为:
其中,gs代表subject的ground-truth,go代表object物体实例的ground-truth,sign(·)是符号函数,IOU(·)代表两个区域之间的交并比,即
S-agent和O-agent在执行终止搜索动作后获得的奖励和分别定义为:
其中,η是终止动作的奖励,τ是终止动作的IoU阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110152379.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能测试笔蓝牙数据传输设备
- 下一篇:基于环形作业的种植区