[发明专利]一种基于专家策略指导的主动目标跟踪方法及系统有效
申请号: | 202211388347.9 | 申请日: | 2022-11-08 |
公开(公告)号: | CN115439510B | 公开(公告)日: | 2023-02-28 |
发明(设计)人: | 宋然;栾迎新;张钰荻;张伟;李晓磊;张倩 | 申请(专利权)人: | 山东大学 |
主分类号: | G06T7/246 | 分类号: | G06T7/246;G06T7/90;G06N3/0464;G06N3/092;G06N3/094 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李琳 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 专家 策略 指导 主动 目标 跟踪 方法 系统 | ||
1.一种基于专家策略指导的主动目标跟踪方法,其特征在于,包括:
获取场景观测图像、场景地图和智能体位姿;
根据场景地图和智能体位姿,获得每个智能体的局部地图和每个局部地图中所有智能体运动轨迹,作为第一训练数据,获取局部地图的过程为:获取场景中智能体的位姿,其中,为全局地图下跟踪器位姿,为全局地图下目标对象位姿,并依据此将全局地图进行旋转和平移,即计算从场景地图的全局地图坐标系到以智能体为中心坐标系的变换,以获取以智能体为中心的局部地图,其中,下标1和2分别代表跟踪器和目标对象,为以跟踪器为中心的局部地图,为以目标对象为中心的局部地图;
将第一训练数据分别输入专家跟踪器和专家目标对象中,由专家目标对象和专家跟踪器进行对抗强化学习,通过专家跟踪器输出建议动作,获得专家跟踪器输出建议动作的具体过程为:
将第一训练数据分别输入专家跟踪器和专家目标对象中,通过专家目标对象对专家跟踪器进行对抗学习,对专家跟踪器进行预训练,在预训练过程中,由专家跟踪器输出决策动作,由专家目标对象输出目标对应的逃脱策略,并通过专家目标对象模型的策略,构建专家策略池;
从专家策略池中选取微调用专家目标对象模型;
通过微调用专家目标对象模型与预训练后的专家跟踪器进行对抗学习,对预训练后的专家跟踪器进行微调,通过微调后的专家跟踪器输出建议动作;
将场景观测图像输入学生跟踪器中,将建议动作作为场景观测图像的标签对学生跟踪器进行训练,获得训练好的学生跟踪器;
利用训练好的学生跟踪器对获取的场景实时图像进行识别,获得智能体决策动作。
2.如权利要求1所述的一种基于专家策略指导的主动目标跟踪方法,其特征在于,专家跟踪器和专家目标对象采用遮挡可知的奖励机制,当专家跟踪器未处于遮挡状态时,专家跟踪器的奖励值的取值范围被限制到0到1之间,当专家跟踪器处于遮挡状态时,专家跟踪器的奖励值设置为-1。
3.如权利要求1所述的一种基于专家策略指导的主动目标跟踪方法,其特征在于,在对学生跟踪器进行训练时,采用学生目标对象对学生跟踪器进行引导,其中,学生目标对象模型选用专家策略池中的专家目标对象模型。
4.如权利要求1所述的一种基于专家策略指导的主动目标跟踪方法,其特征在于,专家跟踪器和学生跟踪器均包括卷积神经网络和序列模型,专家跟踪器中的卷积神经网络对局部地图和智能体相对运动轨迹进行编码,获得编码信息,通过序列模型对编码信息进行识别,获得建议动作;学生跟踪器中的卷积神经网络对场景观测图像进行编码,获得编码信息,通过序列模型对编码信息进行识别,获得决策动作。
5.如权利要求4所述的一种基于专家策略指导的主动目标跟踪方法,其特征在于,学生跟踪器的损失函数包括特征空间上损失和动作空间上损失,动作空间上损失采用KL散度计算,特征空间上损失通过专家跟踪器与学生跟踪器中卷积神经网络输出的相似性计算获得。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211388347.9/1.html,转载请声明来源钻瓜专利网。