[发明专利]一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法有效

申请号：	201910017601.6	申请日：	2019-01-09
公开（公告）号：	CN109740741B	公开（公告）日：	2023-07-25
发明（设计）人：	丁子凡;丁德锐;王永雄;魏国亮;鄂贵	申请（专利权）人：	上海理工大学
主分类号：	G06N3/092	分类号：	G06N3/092;G06N3/096;G06N3/042;G06N3/048;G06N3/084;G06N5/04;B60W40/00
代理公司：	北京纪凯知识产权代理有限公司 11245	代理人：	陆惠中;王永伟
地址：	200093 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种结合知识转移强化学习方法及其应用于无人自主技能
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种应用于无人车自主技能的学习方法，采用结合知识转移的强化学习方法进行学习，其特征在于：在无人车模拟器上进行无人车自主技能学习，且源任务和目标任务不同时，对案例库中的案例进行分布式检索处理；

无人车模拟器的源任务经验存储的案例库U1中，案例都是拥有两个属性的状态变量(x，x’)，而目标任务经验存储的案例库U2中案例拥有四个属性状态变量(x，x’，y，y’)，为了实现案例的检索，将相似度计算分如下步骤进行分布式检索：

(1)当前案例与案例库U1进行匹配计算相似度：

(2)如果案例库U1中匹配到满足相似度阈值的案例，则不进行案例库U2匹配，如何没有匹配到满足相似度阈值的案例，则将当前案例与案例库U2进行匹配计算相似度：

其中：dist(m,n)为属性m和属性n之间的距离；

如果计算的相似度高于给定阈值，表明案例库有相似案例，然后选择和执行案例所建议的动作计算启发式H(s_t,a_t)；如果计算的相似度都低于给定阈值，表示案例库无相似案例，则将RL与知识转移相结合框架下的强化学习算法表现为传统强化算法进行学习；

其中，所述结合知识转移的强化学习方法，具体包括以下步骤：

S1、设计BP神经网络自主任务间映射关系，通过对源任务中的学习经验进行映射来初始化目标任务，为目标任务设置先验；

S2、对源任务学习经验进行案例存储，并构建线性感知器来学习源域和目标域之间的动作映射关系；

S3、运用基于案例推理机理，在目标任务进行学习时对其在线学习经验进行存储来扩充案例库，并提出渐进遗忘准则对案例库所存储经验中长期不被利用的信息进行清除，以减少匹配检索时间；

S4、进行相似度计算与案例检索,并运用所学到的案例库中的经验作为启发式来加速相关但不同任务的学习；

在步骤S1中所述目标任务设置先验时，运用一维tiling来通过Tile Coding线性函数逼近器逼近状态-行为值函数并构建神经网络学习源任务的函数逼近器结构与目标任务的函数逼近器结构之间的映射，以实现通过源任务中学习经验来初始化目标任务，网络训练过程中源任务和目标任务Tile Coding中激活的tile权重分别作为网络输入和输出；

所述步骤S2具体包括以下步骤：

S2.1：在案例库构建过程中，用Q(λ)算法对源任务进行训练，并通过其所学策略建立一定数量的案例库，案例库中每个案例用一个三元组表示：

case＝(P,A,Q)

其中：P为问题描述-属性，A为解决方案-动作，Q为执行解决方案的预期回报，用于反应所采取的解决方案的质量；

S2.2：在动作映射过程中，运用线性、单层、前馈的线性感知器网络将源任务和目标任务之间的动作建立联系，在所述线性感知器网络中，输入节点对应于目标任务中一组可能动作，输出节点对应于源任务中一组可能动作；通过在源域和目标域中执行一组随机动作来更新网络权重方法，如果两个动作的观察结果相似，那么连接这一对动作的权重就会增加；反之，连接的权重会降低。

2.根据权利要求1所述的一种应用于无人车自主技能的学习方法，其特征在于：所述函数公式为：

其中，j＝1,......,N.，N为tilings总数，θ_j(s_t)为给定状态st的第j个激活tile的二值特征(1或0)，w_j为给定状态st的第j个激活tile的权重；

假设Φ是由状态s_t＝[ω₁,...,ω_k,...ω_t]激活的块的集合，其中ω_k表示第k个状态变量，那么Φ可以被划分为t个子集Φ＝{Φ₁,...,Φ_k,...Φ_t}，其中Φ_k是由状态变量ω_k激活的tile的集合，则进一步计算函数公式为：

通过源任务tile coding线性函数逼近器权重来初始化目标任务中的tile coding线性函数逼近器权重，实现源任务学习经验，为目标任务设置先验。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海理工大学，未经上海理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910017601.6/1.html，转载请声明来源钻瓜专利网。

上一篇：卷积计算的定点加速方法及装置
下一篇：一种基于LSTM神经网络的目标跟踪方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法有效

专利文献下载