[发明专利]一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法有效
申请号: | 201910017601.6 | 申请日: | 2019-01-09 |
公开(公告)号: | CN109740741B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 丁子凡;丁德锐;王永雄;魏国亮;鄂贵 | 申请(专利权)人: | 上海理工大学 |
主分类号: | G06N3/092 | 分类号: | G06N3/092;G06N3/096;G06N3/042;G06N3/048;G06N3/084;G06N5/04;B60W40/00 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 陆惠中;王永伟 |
地址: | 200093 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 知识 转移 强化 学习方法 及其 应用于 无人 自主 技能 | ||
1.一种应用于无人车自主技能的学习方法,采用结合知识转移的强化学习方法进行学习,其特征在于:在无人车模拟器上进行无人车自主技能学习,且源任务和目标任务不同时,对案例库中的案例进行分布式检索处理;
无人车模拟器的源任务经验存储的案例库U1中,案例都是拥有两个属性的状态变量(x,x’),而目标任务经验存储的案例库U2中案例拥有四个属性状态变量(x,x’,y,y’),为了实现案例的检索,将相似度计算分如下步骤进行分布式检索:
(1)当前案例与案例库U1进行匹配计算相似度:
(2)如果案例库U1中匹配到满足相似度阈值的案例,则不进行案例库U2匹配,如何没有匹配到满足相似度阈值的案例,则将当前案例与案例库U2进行匹配计算相似度:
其中:dist(m,n)为属性m和属性n之间的距离;
如果计算的相似度高于给定阈值,表明案例库有相似案例,然后选择和执行案例所建议的动作计算启发式H(st,at);如果计算的相似度都低于给定阈值,表示案例库无相似案例,则将RL与知识转移相结合框架下的强化学习算法表现为传统强化算法进行学习;
其中,所述结合知识转移的强化学习方法,具体包括以下步骤:
S1、设计BP神经网络自主任务间映射关系,通过对源任务中的学习经验进行映射来初始化目标任务,为目标任务设置先验;
S2、对源任务学习经验进行案例存储,并构建线性感知器来学习源域和目标域之间的动作映射关系;
S3、运用基于案例推理机理,在目标任务进行学习时对其在线学习经验进行存储来扩充案例库,并提出渐进遗忘准则对案例库所存储经验中长期不被利用的信息进行清除,以减少匹配检索时间;
S4、进行相似度计算与案例检索,并运用所学到的案例库中的经验作为启发式来加速相关但不同任务的学习;
在步骤S1中所述目标任务设置先验时,运用一维tiling来通过Tile Coding线性函数逼近器逼近状态-行为值函数并构建神经网络学习源任务的函数逼近器结构与目标任务的函数逼近器结构之间的映射,以实现通过源任务中学习经验来初始化目标任务,网络训练过程中源任务和目标任务Tile Coding中激活的tile权重分别作为网络输入和输出;
所述步骤S2具体包括以下步骤:
S2.1:在案例库构建过程中,用Q(λ)算法对源任务进行训练,并通过其所学策略建立一定数量的案例库,案例库中每个案例用一个三元组表示:
case=(P,A,Q)
其中:P为问题描述-属性,A为解决方案-动作,Q为执行解决方案的预期回报,用于反应所采取的解决方案的质量;
S2.2:在动作映射过程中,运用线性、单层、前馈的线性感知器网络将源任务和目标任务之间的动作建立联系,在所述线性感知器网络中,输入节点对应于目标任务中一组可能动作,输出节点对应于源任务中一组可能动作;通过在源域和目标域中执行一组随机动作来更新网络权重方法,如果两个动作的观察结果相似,那么连接这一对动作的权重就会增加;反之,连接的权重会降低。
2.根据权利要求1所述的一种应用于无人车自主技能的学习方法,其特征在于:所述函数公式为:
其中,j=1,......,N.,N为tilings总数,θj(st)为给定状态st的第j个激活tile的二值特征(1或0),wj为给定状态st的第j个激活tile的权重;
假设Φ是由状态st=[ω1,...,ωk,...ωt]激活的块的集合,其中ωk表示第k个状态变量,那么Φ可以被划分为t个子集Φ={Φ1,...,Φk,...Φt},其中Φk是由状态变量ωk激活的tile的集合,则进一步计算函数公式为:
通过源任务tile coding线性函数逼近器权重来初始化目标任务中的tile coding线性函数逼近器权重,实现源任务学习经验,为目标任务设置先验。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海理工大学,未经上海理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910017601.6/1.html,转载请声明来源钻瓜专利网。