[发明专利]一种无人机自主跟拍运动目标的方法在审
申请号: | 202010946929.9 | 申请日: | 2020-09-10 |
公开(公告)号: | CN112131661A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 俞扬;詹德川;周志华;庞竟成;罗凡明;张云天;付聪;袁雷 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F30/15 | 分类号: | G06F30/15;G06F30/27;G05B17/02;B64C39/02;G06K9/62;G06N3/04 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 无人机 自主 运动 目标 方法 | ||
1.一种无人机自主跟拍运动目标的方法,其特征在于,包括在模拟器中训练跟拍虚拟目标,实现步骤为:(1)构建无人机模拟器;(2)在无人机模拟器中采集样本;(3)利用采集样本进行无人机飞行控制策略训练;
所述无人机模拟器用于近似模拟马尔科夫过程S,A,P,R,γ,提供与真实场景下无人机一致的观测信息,并提供与真实无人机一致的操作指令;在模拟器中生成随机移动的运动目标;
所述无人机飞行控制策略训练过程中,使用神经网络来表示初始无人机飞行控制策略模型,用当前初始飞行控制策略模型在无人机模拟器中控制无人机,在无人机模拟器提供的马尔科夫过程中采样,针对收集到的样本,用近端策略优化的方法优化当前初始飞行控制策略模型,直至初始飞行控制策略模型不再提升,得到无人机飞行控制策略模型。
2.根据权利要求1所述的无人机自主跟拍运动目标的方法,其特征在于,所述无人机飞行控制策略训练过程中,通过神经网络与无人机模拟器的交互,实现采样中进行优化无人机飞行控制策略,使用随机梯度下降方法去优化神经网络的替代目标函数。
3.根据权利要求1所述的无人机自主跟拍运动目标的方法,其特征在于,所述的收集到的样本包含一个马尔科夫决策过程需要的全部信息,即一组样本包括S:无人机在模拟器中观测到的自身状态信息的集合;A:无人机采样过程中执行的全部操作指令的集合;R:无人机采样过程中获取的奖赏的集合;γ:无人机所获取奖赏的衰减系数。
4.根据权利要求1所述的无人机自主跟拍运动目标的方法,其特征在于,训练所述无人机飞行控制策略训练包含以下步骤:
S01:为神经网络选择学习率、激活函数、网络结构、学习器;
S02:搭建策略神经网络和状态价值神经网络作为当前初始飞行控制策略模型;
S03:在无人机模拟器中执行初始飞行控制策略模型,即将在模拟器中获得的无人机传感器传递的状态信息发送给神经网络,获取相应的操作指令;
S04:将操作指令传递给模拟器中无人机,无人机执行该操作指令,获得下一个状态信息;
S05:循环S03-S04直至与神经网络模拟器交互结束;
S06:将收集到的状态信息、操作指令和奖赏的集合汇总,使用近端策略优化方法来优化初始无人机飞行控制策略模型,得到最终的无人机飞行控制策略模型,优化目标函数为:
其中,为t时刻的优势函数,其表达式为:
其中V为状态价值函数在t时刻的值,γ为所述衰减系数。
5.根据权利要求1所述的无人机自主跟拍运动目标的方法,其特征在于,方法还包括:在真实场景下选择需要跟拍的真实目标,调用在模拟器中训练的飞行控制策略模型,对真实无人机进行飞行控制,实现自主跟拍运动目标的功能。
6.根据权利要求5所述的无人机自主跟拍运动目标的方法,其特征在于,在真实场景下选择需要跟拍的真实目标,调用在模拟器中训练的飞行控制策略模型,对真实无人机进行飞行控制,实现自主跟拍运动目标的功能,包含以下步骤:
S07:在现实环境中为无人机选择真实跟拍目标;
S08:使用任意框架搭建无人机飞行控制策略神经网络,读取飞行控制策略模型已经优化好的策略参数;
S09:将无人机传感器在真实环境中获取的信息进行组合,传递给无人机飞行控制策略模型,获取操作指令;
S10:获得无人机的下一个状态信息;
S11:循环S09-S10至自主跟拍运动目标任务结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010946929.9/1.html,转载请声明来源钻瓜专利网。