[发明专利]基于深度强化学习的自适应动态窗口法在审
申请号: | 202211163167.0 | 申请日: | 2022-09-23 |
公开(公告)号: | CN115542733A | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 张卫波;黄赐坤;黄晓军;温珍林;封士宇 | 申请(专利权)人: | 福州大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 丘鸿超;蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 自适应 动态 窗口 | ||
1.一种基于深度强化学习的自适应动态窗口法,其特征在于,包括以下步骤:
步骤S1:建立DWA算法模型,根据阿克曼智能车确定包括:速度范围[vmin,vmax]、角速度范围[wmin,wmax]、加速度范围角加速度范围的参数及DWA算法的要素;
步骤S2:构建面向DWA算法的深度强化学习模型,具体包括智能体、环境、动作与状态空间、奖励函数、深度强化学习架构;
步骤S3:随机初始化障碍物地图环境,初始化智能车速度v0、角速度w0、朝向角θ0为0,将智能车置于起点p0,终点设置为g;
步骤S4:训练集收集阶段:模拟智能体在随机生成的障碍物地图中运动,收集用于神经网络梯度下降的轨迹集ψ;
步骤S5:网络参数更新阶段:利用步骤S4收集到的轨迹集ψ更新各个网络架构参数;
步骤S6:判断当前网络架构下智能体的回合平均分是否大于阈值,如果是则终止循环,否则重新进入步骤S3进行新一代训练。
2.根据权利要求1所述的基于深度强化学习的自适应动态窗口法,其特征在于:步骤S1中,所述DWA算法核心要素包括:速度空间约束、运动模型、评价函数:
速度空间约束Vv
(1)极限速度约束Vm:智能车可行速度不得超过极限范围:
Vm={(v,w)|v∈[vmin,vmax]∧w∈[wmin,wmax]}
式中[vmin,vmax]线速度范围,[wmin,wmax]为角速度范围;
(2)加速度约束Vd:相邻时刻的智能车速度、角速度增量受到加速度、角加速度约束:
vc、wc为当前线速度、角速度,为线加速度范围,为角加速度范围,Δt为运动时间间隔,也为模拟轨迹采样时间间隔;
(3)制动距离约束Va:智能车应能够在与障碍物碰撞前减速至0:
dist(v,w)为速度-角速度组合(v,w)对应轨迹离障碍物的最近距离;
(4)最小转弯半径约束wa:智能车转向过程其转弯半径不得小于最小转弯半径:
v为智能车速度,αlim为智能车最大转角,rmin为智能车最小转弯半径;综上,速度空间约束VV表示为:
Vv=Vm∩Vd∩Va∩wa
运动模型
当运动时间间隔足够小时,将相邻两点之间的运动轨迹近匀速直线运动,具体公式如下:
xt、yt表示t时刻智能车的横纵坐标,表示t时刻的航向角,vt、wt表示t时刻的速度-角速度组合,Δt为运动时间间隔;
评价函数
G(v,w)=σ(αheading(v,w)+ζdist(v,w)+γvel(v,w))
式中σ()为平滑函数,表示智能车航向角,φ为智能车位置与目标点连线与x轴正方向夹角,dist(v,w)为模拟轨迹到最近障碍物的欧氏距离,vel(v,w)表示智能车的线速度大小,α、ζ、γ为三个权重系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211163167.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种检测恶意代码的方法和装置
- 下一篇:集成电路精密测试装置