[发明专利]面向深度强化学习的策略保护防御方法有效

申请号：	202110651675.2	申请日：	2021-06-11
公开（公告）号：	CN113392396B	公开（公告）日：	2022-10-14
发明（设计）人：	陈晋音;章燕;王雪柯;胡书隆	申请（专利权）人：	浙江工业大学
主分类号：	G06F21/55	分类号：	G06F21/55;G06F21/62;G06N3/08
代理公司：	杭州天勤知识产权代理有限公司 33224	代理人：	高燕
地址：	310014 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	面向深度强化学习策略保护防御方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向深度强化学习的策略保护防御方法，其特征在于，包括以下步骤：

1)搭建深度强化学习的目标智能体自动驾驶模拟环境，基于强化学习中的深度Q网络预训练目标智能体以优化深度Q网络的参数；

2)根据优化后的深度Q网络的策略π_t生成T个时刻目标智能体驾驶序列状态动作对和奖励值作为专家数据；

3)根据专家数据模仿学习生成模仿策略π_IL；

4)目标智能体在模仿策略π_IL的基础上对自身的策略进行调整学习，通过对深度Q网络进行微调并修改目标函数，使得在保证目标智能体策略π_t可以获得较高的期望奖励值的同时，保证根据模仿策略π_IL得到的期望奖励值较低，以达到策略保护的目的。

2.根据权利要求1所述的面向深度强化学习的策略保护防御方法，其特征在于，步骤1)包括：

1.1)搭建深度强化学习的目标智能体自动驾驶模拟环境；

1.2)基于强化学习中的深度Q网络训练目标智能体，训练目标是在较短的时间内安全地到达目的地；

1.3)训练过程中，将目标智能体的状态转换过程存储在经验回放缓冲区Buff中，作为深度Q网络的训练数据集；所述的深度Q网络包括当前Q网络和目标Q网络；

1.4)从经验回放缓冲区Buff中随机采样N个训练数据集，通过最小化当前Q网络的预测Q值和目标Q网络的目标Q值的均方差来更新当前Q网络的网络参数；每隔一段时间将当前Q网络的参数复制给目标Q网络。

3.根据权利要求1所述的面向深度强化学习的策略保护防御方法，其特征在于，步骤3)包括：

3.1)将专家数据中的状态s作为Actor网络的输入，根据初始化的模仿策略π_IL(a|s)输出Actor网络所采取的动作a'；

3.2)将a'和专家数据中的状态s作为状态动作对(s,a')，与专家数据中对应的状态动作对(s,a)一起输入到判别器网络当中，对其产生的动作进行判别，利用判别器网络的输出y_D来作为奖励值以指导模仿策略π_IL的学习；

3.3)在模仿策略π_IL的学习过程中，通过最大化得到的期望奖励值来学习专家数据的策略，最小化损失函数以更新Actor网络和判别器网络的参数；

3.4)重复步骤3.2)-3.3)，迭代更新Actor网络和判别器网络的结构参数以学习专家数据的策略，得到模仿策略π_IL。

4.根据权利要求3所述的面向深度强化学习的策略保护防御方法，其特征在于，所述判别器网络的损失函数为：

其中，π_IL表示模仿学习得到的策略；π_t表示采样的专家策略；第一项中的logD(s,a)表示判别器对真实数据的判断；第二项log(1-D(s,a))则表示判别器对生成数据的判断。

5.根据权利要求3所述的面向深度强化学习的策略保护防御方法，其特征在于，步骤3.3)中，通过梯度求导来最小化损失函数从而反向更新判别器和Actor网络参数，其损失函数如下：

其中，是模仿策略π_IL的熵，由常数λ(λ≥0)控制，作为损失函数中的策略正则项。

6.根据权利要求1所述的面向深度强化学习的策略保护防御方法，其特征在于，步骤4)中，对深度Q网络进行微调包括：

将深度Q网络最后的Q网络层进行复制扩充，得到k个并行的Q网络层；

在训练过程中，随机从k个Q网络层中选择一个作为Q值输出层用于进行策略动作选取；更新参数时，从经验回放缓冲区Buff中进行数据采样，然后利用泊松分布生成一个k×1的掩码对k个Q网络层进行参数更新，利用k个Q值的平均值作为目标智能体策略π_t进行学习和模仿。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110651675.2/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载