[发明专利]一种基于强化学习算法SAC的目标跟踪方法、装置及存储介质在审

申请号：	202210240273.8	申请日：	2022-03-10
公开（公告）号：	CN114897930A	公开（公告）日：	2022-08-12
发明（设计）人：	范保杰;吴育竹;蒋国平;徐丰羽	申请（专利权）人：	南京邮电大学
主分类号：	G06T7/246	分类号：	G06T7/246;G06N3/04;G06N3/08;G06N20/00;G06V10/25;G06V10/77;G06V10/774;G06V10/82;G06V20/40;G06V20/52
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	刘艳艳
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习算法 sac 目标跟踪方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习算法SAC的目标跟踪方法，其特征在于，包括：

获取视频数据；

在视频数据的当前帧中确定搜索区域位置和大小；

判断当前帧是否为第一帧；

响应于当前帧非第一帧，获取当前帧的上一帧的预测结果，根据当前帧的上一帧的预测结果在当前帧裁取图像得到当前帧裁取图像s，将当前帧裁取图像s输入预训练好的actor网络模型进行特征提取，得到输出的预测框；

根据所述预测框对目标进行跟踪，并将预测框作为下一帧的groundTruth；

其中所述actor网络模型的训练方法，包括：

在视频数据的第一帧中确定目标的大小和位置，设置经验池参数；

初始化actor、target_actor,critic1、target_critic1,critic2、target_critic2网络参数；

响应于当前输入帧为第一帧，对actor、target_actor网络进行初始化，

响应于当前帧非第一帧，根据当前帧预测框在当前帧裁取图像，得到预测框裁取图像s'，并计算所述当前帧预测框与当前帧真实框之间的IoU；根据IoU，通过奖励函数计算得到奖励值；

将上一帧的预测结果在当前帧裁取图像s、动作、奖励值、预测框裁取图像s'存入经验池；

根据经验池中存储的数据，通过actor、critic网络计算动作a_t、动作a_t在定义的分布Normal(mu.std)中对应的概率的对数logπ_φ(a|s)；

根据计算得到的动作a_t、动作a_t在定义的分布Normal(mu.std)中对应的概率的对数logπ_φ(a|s)，计算actor、critic1、critic2网络损失，利用强化学习SAC算法更新网络权值。

2.根据权利要求1所述的基于强化学习算法SAC的目标跟踪方法，其特征在于，其中，所述设置经验池参数，包括经验池容量X，表示可以存储X条数据，每一条数据符号为：(s,a,r,s')，其中s表示上一帧的预测结果在当前帧裁取图像、a表示动作、r表示奖励值、s'表示当前帧预测框在当前帧裁取图像。

3.根据权利要求1所述的基于强化学习算法SAC的目标跟踪方法，其特征在于，所述设置经验池参数，包括：根据经验设置经验池容量为X，表示可以存储X条数据符号为：(s,a,r,s')，一条数据包含：在当前帧所裁取1*3*107*107维度图像，1*3维度的动作，1*1的奖励值，当前帧图像采取动作后裁取的1*3*107*107维度图像。

4.根据权利要求1所述的基于强化学习算法SAC的目标跟踪方法，其特征在于，所述初始化actor、target_actor,critic1、target_critic1,critic2、target_critic2网络参数,包括：加载在imageNet预训练好的vgg-M网络的前四层网络参数，并以此作为图片特征提取模型网络，并将actor、critic1,critic2网络参数分别赋值给target_actor、target_critic1,target_critic2网络参数。

5.根据权利要求1所述的基于强化学习算法SAC的目标跟踪方法，其特征在于，响应于当前输入帧为第一帧，对actor、target_actor网络进行初始化，包括：若此帧图片为该视频序列第一帧，最小化actor以及target_actor网络输出和标签之间的误差，损失函数表达式为：

其中μ(s_m|φ^μ)为在groundTruth加入高斯噪声，产生M个样本，经由actor网络处理后输出的预测动作，a_m为标签，是M个样本与groundTruth的真实距离，μ是actor网络，m表示第m个数据；

通过Adam优化器训练actor以及target_actor网络参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210240273.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种复合EPP/相变材料及其制备方法
下一篇：一种基于分页聚合检索不同数据源及数据结构的方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T7-00 图像分析，例如从位像到非位像
G06T7-20 .运动分析
G06T7-40 .结构分析
G06T7-60 .图形属性的分析，例如一个图像的区域、重心、周边

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习算法SAC的目标跟踪方法、装置及存储介质在审

专利文献下载