[发明专利]基于对抗地图的深度强化学习导航应用鲁棒性增强方法在审

申请号：	202210447172.8	申请日：	2022-04-19
公开（公告）号：	CN115032980A	公开（公告）日：	2022-09-09
发明（设计）人：	桓琦;郭敏;马晓军;曾颖明;方永强	申请（专利权）人：	北京计算机技术及应用研究所
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	中国兵器工业集团公司专利中心 11011	代理人：	王雪芬
地址：	100854***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于对抗地图深度强化学习导航应用鲁棒性增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于对抗地图的深度强化学习导航应用鲁棒性增强方法，其特征在于，包括以下步骤：

步骤一、基于对抗样本的基本原理，定义对抗地图并提出对抗地图生成方法；

步骤二、安全加固训练：使用步骤一的对抗地图生成方法，通过生成对抗地图对导航智能体进行重训练。

2.如权利要求1所述的方法，其特征在于，步骤一中，首先定义DRL导航系统包括DRL导航模型、传感器、移动机器人，其中，DRL导航模型是指用于导航的DRL模型，传感器搭载在移动机器人上，DRL导航模型可根据传感器的数据进行决策，使移动机器人做出各种动作，所述移动机器人是导航智能体，指使用DRL算法进行导航的移动机器人，根据传感器的不同，DRL导航系统分为视觉和激光两类；

其次，对于使用激光传感器的激光DRL导航系统，执行如下步骤：

对所述对抗地图进行如下定义：通过对原始地图中的障碍物进行修改，可使导航智能体在修改位置附近的决策发生不必要的变化，偏离原导航路径，最终导航失败的地图；

针对每一个原始地图，基于对抗样本的基本原理，提出以下步骤用于生成相应的对抗地图：

(1)收集导航智能体的交互信息：在原始地图上对DRL导航模型进行多次导航测试，记录每一次导航过程中导航智能体与环境的交互信息，包括移动机器人的姿态信息、传感器数据、做出的动作；

(2)基于所述交互信息确定安全脆弱区域：

(2a)从所述交互信息中提取导航智能体的观测信息作为原始样本，使用对抗样本生算法进行攻击，记录每次导航、每个时间步中，每种目标动作的攻击结果，在攻击时仅对传感器数据添加对抗扰动；

(2b)根据记录的交互信息，以及步骤(2a)的攻击结果，生成脆弱区域分析图；在所述脆弱区域分析图上，从攻击成功位置聚集的多个区域中选取若干个，作为DRL导航模型在该原始地图上的安全脆弱区域；选取规则如下：在该区域攻击成功后，导航智能体的动作会使移动机器人偏离当前导航路径；

(3)基于所述安全脆弱区域计算对抗扰动：

(3a)令[a,b]表示所述安全脆弱区域的时间步范围，再重新从步骤(1)收集的交互信息中随机选择某次导航的观测信息作为原始样本，用JSMA算法计算时间步范围[a,b]内的对抗扰动δ_a,δ_a+1,…,δ_b，使得在激光传感器数据上添加相应扰动后导航智能体将连续地做出目标动作t，其中，由于输入特征数量较少，因此对JSMA算法的特征图S的计算过程进行改进，公式如下：

其中，π_t表示导航智能体策略函数π的第t个输出；l_k,i为时间步k时激光传感器数据l_k的第i个元素，k∈[a,b]。S⁺(o_k,t)和S^-(o_k,t)分别表示两种不同方法计算的特征图，其中S⁺(o_k,t)中仅保留了偏导数大于0的输入特征，也就是说，只要增加满足S⁺(o_k,t)[i]0的输入特征大小，就可使π_t变大，S⁺(o_k,t)[i]值越大，则增加l_k,i数值后DRL导航模型输出结果更倾向于目标动作t，类似地，S^-(o_k,t)[i]值越大，则减小l_k,i数值后模型输出结果更倾向于目标动作t；在每个时间步中，JSMA算法都根据相应的特征图S计算对抗扰动；

(3b)根据上一步计算的对抗扰动，按下式计算通用对抗扰动δ，作为最终得到的对抗扰动，其中，δ_k,j表示第k个时间步的对抗扰动δ_k的第j个分量；

(4)基于步骤3计算出的对抗扰动修改障碍物实现扰动：通过修改原始地图中安全脆弱区域附近障碍物的位置，将对抗扰动添加到导航智能体的观测信息中，即，使移动机器人在该区域的激光传感器数据变为l_k+δ，从而得到对抗地图。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所，未经北京计算机技术及应用研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210447172.8/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于对抗地图的深度强化学习导航应用鲁棒性增强方法在审

专利文献下载