[发明专利]一种对多传感器多目标的智能决策方法及存储介质有效
申请号: | 202110308094.9 | 申请日: | 2021-03-23 |
公开(公告)号: | CN112966641B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 李博骁;张峰;高原;王诏丰;王子磊;杨尚彤 | 申请(专利权)人: | 中国电子科技集团公司电子科学研究院 |
主分类号: | G06V20/10 | 分类号: | G06V20/10;G06V10/774;G06V10/80 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 于金平 |
地址: | 100041 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 传感器 多目标 智能 决策 方法 存储 介质 | ||
1.一种对多传感器多目标的智能决策方法,其特征在于,包括:
基于目标状态、传感器装备状态以及传感器装备对目标的动作进行特征编码得到各状态的特征向量和动作的特征向量,基于所述特征向量进行训练得到智能体模型,其中,所述目标为多个;
在各种变化的目标状态下,通过所述智能体模型实时对多个目标进行动态决策,以对多个目标进行实时跟踪和识别;
所述基于目标状态、传感器装备状态以及传感器装备对目标的动作进行特征编码得到各状态的特征向量和动作的特征向量,包括:将目标状态和所有传感器装备状态进行融合,通过状态表达将所述目标状态和所述传感器装备状态转换为与决策直接相关的目标状态的特征向量、传感器装备状态的特征向量和动作的特征向量;其中,所述决策为所述目标状态与所述传感器装备状态下传感器装备对目标所执行的动作;
所述将目标状态和所有传感器装备状态进行融合,通过状态表达将所述目标状态和所述传感器装备状态转换为与决策直接相关的目标状态的特征向量、传感器装备状态的特征向量和动作的特征向量,包括:
将所述目标状态和所有传感器装备状态进行融合,通过状态表达将所述目标和所述传感器装备状态转换为与决策直接相关的状态和动作的27维的特征向量:state=[x1,x2,...,x27],通过对每一个目标根据各传感器装备对该目标的可见性来设置对应特征向量的维度值;
其中,第1维特征向量为目标的优先级,第2-4维特征向量为目标位置,第5-7维特征向量为目标速度,第8-27特征向量为传感器装备对目标的可见性和可用资源融合,第8-27特征向量的每一个维度代表一个固定的传感器装备;
所述通过对每一个目标根据各传感器装备对该目标的可见性来设置对应特征向量的维度值,包括:
当某一传感器装备无可用资源或者对目标不可见时,则设置对应特征向量的维度值为0,并对可见目标的特征向量的维度值设置为对应传感器状态实际剩余可用资源量的值,以得出可见性和可用资源的融合后的特征向量值;
所述特征向量值为20维的特征向量值,该20维的特征向量值表示对某一个目标的决策输出为20维0/1向量action=[a1,a2,...,a20],每一个元素代表该位置的装备是否对目标进行跟踪或识别。
2.根据权利要求1所述的方法,其特征在于,基于所述特征向量进行训练得到智能体模型,包括:
步骤一、将状态的特征向量、动作的特征向量、以及预设对动作的奖励值输入到Q网络模型,通过最小化所述Q网络模型的目标函数,并使用梯度下降法进行所述Q网络模型的参数更新,然后用所述Q网络模型的输出作为所述智能体模型的目标函数,更新所述智能体模型;
步骤二、不断循环步骤一,直至所述Q网络模型和智能体模型收敛,得到训练后的智能体模型。
3.根据权利要求2所述的方法,其特征在于,所述方法中还包括:target Q网络模型;
所述target Q网络模型的结构与所述Q网络模型的结构相同,通过所述target Q网络模型更新所述Q网络模型,并取所述target Q网络模型和所述Q网络模型的最小值,以防止Q值误差累加和过拟合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司电子科学研究院,未经中国电子科技集团公司电子科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110308094.9/1.html,转载请声明来源钻瓜专利网。