[发明专利]基于深度增强学习的多目标跟踪方法有效
申请号: | 201810220513.1 | 申请日: | 2018-03-16 |
公开(公告)号: | CN108447076B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 鲁继文;周杰;任亮亮;王梓枫 | 申请(专利权)人: | 清华大学 |
主分类号: | G06T7/246 | 分类号: | G06T7/246 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 增强 学习 多目标 跟踪 方法 | ||
1.一种基于深度增强学习的多目标跟踪方法,其特征在于,包括以下步骤:
提取行人特征;
将所述行人特征输入预测网络,以预测行人位置;以及
根据所述行人位置得到行人信息,并且将所述行人信息输入决策网络进行判断,以对目标进行跟踪;
其中,所述提取行人特征,并且所述将所述行人特征输入预测网络,进一步包括:通过卷积神经网络提取所述行人特征;将所述行人特征和行人前预设帧的轨迹信息相连接,并进入所述预测网络,以预测所述行人下一帧的位置信息;
所述根据所述行人位置获取行人信息,并将行人信息输入决策网络,进一步包括:将目标的所述位置信息、目标的邻近目标和目标的当前检测位置输入所述预测网络;根据每个目标的当前帧所处状态进行决策动作;
其中,如果所述决策动作为更新动作,则根据预测结果和检测结果来更新位置和外观模型;如果所述决策动作为忽略动作,则将所述预测结果作为目标下一帧的特征;如果所述决策动作为遮挡动作,则保留所述目标的外观特征,且通过所述预测网络更新所述目标的位置特征;如果所述决策动作为删除动作,则删除所述目标;
在将所述行人信息输入决策网络进行判断,进一步包括:
根据描述目标本身的性质和描述最邻近目标的宗旨得到目标跟踪的奖励值,以根据所述奖励值获取所述决策网络,其中,奖励值的定义公式为:
其中,为全局奖励值,ri,t为自己的奖励值,β为平衡系数,rj,t+1为下一时刻的奖励值,i为目标,j为邻居,t为时间。
2.一种基于深度增强学习的多目标跟踪装置,其特征在于,包括:
提取模块,用于提取行人特征;
预测模块,用于将所述行人特征输入预测网络,以预测行人位置;以及
跟踪模块,用于根据所述行人位置得到行人信息,并且将所述行人信息输入决策网络进行判断,以对目标进行跟踪;
其中,所述提取行人特征,并且所述将所述行人特征输入预测网络,进一步包括:提取单元,用于通过卷积神经网络提取所述行人特征;预测单元,用于将所述行人特征和行人前预设帧的轨迹信息相连接,并进入所述预测网络,以预测所述行人下一帧的位置信息;
所述跟踪模块,进一步包括:输入单元,用于将目标的所述位置信息、目标的邻近目标和目标的当前检测位置输入所述预测网络;决策单元,用于根据每个目标的当前帧所处状态进行决策动作;
其中,如果所述决策动作为更新动作,则根据预测结果和检测结果来更新位置和外观模型;如果所述决策动作为忽略动作,则将所述预测结果作为目标下一帧的特征;如果所述决策动作为遮挡动作,则保留所述目标的外观特征,且通过所述预测网络更新所述目标的位置特征;如果所述决策动作为删除动作,则删除所述目标;
所述跟踪模块,进一步包括:
获取单元,用于根据描述目标本身的性质和描述最邻近目标的宗旨得到目标跟踪的奖励值,以根据所述奖励值获取所述决策网络,其中,奖励值的定义公式为:
其中,为全局奖励值,ri,t为自己的奖励值,β为平衡系数,rj,t+1为下一时刻的奖励值,i为目标,j为邻居,t为时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810220513.1/1.html,转载请声明来源钻瓜专利网。