[发明专利]基于对抗地图的深度强化学习导航应用鲁棒性增强方法在审
申请号: | 202210447172.8 | 申请日: | 2022-04-19 |
公开(公告)号: | CN115032980A | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 桓琦;郭敏;马晓军;曾颖明;方永强 | 申请(专利权)人: | 北京计算机技术及应用研究所 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 王雪芬 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对抗 地图 深度 强化 学习 导航 应用 鲁棒性 增强 方法 | ||
1.一种基于对抗地图的深度强化学习导航应用鲁棒性增强方法,其特征在于,包括以下步骤:
步骤一、基于对抗样本的基本原理,定义对抗地图并提出对抗地图生成方法;
步骤二、安全加固训练:使用步骤一的对抗地图生成方法,通过生成对抗地图对导航智能体进行重训练。
2.如权利要求1所述的方法,其特征在于,步骤一中,首先定义DRL导航系统包括DRL导航模型、传感器、移动机器人,其中,DRL导航模型是指用于导航的DRL模型,传感器搭载在移动机器人上,DRL导航模型可根据传感器的数据进行决策,使移动机器人做出各种动作,所述移动机器人是导航智能体,指使用DRL算法进行导航的移动机器人,根据传感器的不同,DRL导航系统分为视觉和激光两类;
其次,对于使用激光传感器的激光DRL导航系统,执行如下步骤:
对所述对抗地图进行如下定义:通过对原始地图中的障碍物进行修改,可使导航智能体在修改位置附近的决策发生不必要的变化,偏离原导航路径,最终导航失败的地图;
针对每一个原始地图,基于对抗样本的基本原理,提出以下步骤用于生成相应的对抗地图:
(1)收集导航智能体的交互信息:在原始地图上对DRL导航模型进行多次导航测试,记录每一次导航过程中导航智能体与环境的交互信息,包括移动机器人的姿态信息、传感器数据、做出的动作;
(2)基于所述交互信息确定安全脆弱区域:
(2a)从所述交互信息中提取导航智能体的观测信息作为原始样本,使用对抗样本生算法进行攻击,记录每次导航、每个时间步中,每种目标动作的攻击结果,在攻击时仅对传感器数据添加对抗扰动;
(2b)根据记录的交互信息,以及步骤(2a)的攻击结果,生成脆弱区域分析图;在所述脆弱区域分析图上,从攻击成功位置聚集的多个区域中选取若干个,作为DRL导航模型在该原始地图上的安全脆弱区域;选取规则如下:在该区域攻击成功后,导航智能体的动作会使移动机器人偏离当前导航路径;
(3)基于所述安全脆弱区域计算对抗扰动:
(3a)令[a,b]表示所述安全脆弱区域的时间步范围,再重新从步骤(1)收集的交互信息中随机选择某次导航的观测信息作为原始样本,用JSMA算法计算时间步范围[a,b]内的对抗扰动δa,δa+1,…,δb,使得在激光传感器数据上添加相应扰动后导航智能体将连续地做出目标动作t,其中,由于输入特征数量较少,因此对JSMA算法的特征图S的计算过程进行改进,公式如下:
其中,πt表示导航智能体策略函数π的第t个输出;lk,i为时间步k时激光传感器数据lk的第i个元素,k∈[a,b]。S+(ok,t)和S-(ok,t)分别表示两种不同方法计算的特征图,其中S+(ok,t)中仅保留了偏导数大于0的输入特征,也就是说,只要增加满足S+(ok,t)[i]0的输入特征大小,就可使πt变大,S+(ok,t)[i]值越大,则增加lk,i数值后DRL导航模型输出结果更倾向于目标动作t,类似地,S-(ok,t)[i]值越大,则减小lk,i数值后模型输出结果更倾向于目标动作t;在每个时间步中,JSMA算法都根据相应的特征图S计算对抗扰动;
(3b)根据上一步计算的对抗扰动,按下式计算通用对抗扰动δ,作为最终得到的对抗扰动,其中,δk,j表示第k个时间步的对抗扰动δk的第j个分量;
(4)基于步骤3计算出的对抗扰动修改障碍物实现扰动:通过修改原始地图中安全脆弱区域附近障碍物的位置,将对抗扰动添加到导航智能体的观测信息中,即,使移动机器人在该区域的激光传感器数据变为lk+δ,从而得到对抗地图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210447172.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种驱动脱开机构和汽车
- 下一篇:一种互联网风险监控方法和系统