[发明专利]基于深度Q网络配送小车的自动行驶控制方法有效
申请号: | 201810199115.6 | 申请日: | 2018-03-12 |
公开(公告)号: | CN108594804B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 朱斐;吴文;伏玉琛;周小科 | 申请(专利权)人: | 苏州大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06K9/00 |
代理公司: | 苏州简理知识产权代理有限公司 32371 | 代理人: | 朱亦倩 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 网络 配送 小车 自动 行驶 控制 方法 | ||
1.一种基于深度Q网络配送小车的自动行驶控制方法,包括传感系统、控制系统、驱动系统及电力系统,所述传感系统采集环境信息和电力系统信息,并将环境信息和电力系统信息传入控制系统,所述控制系统根据接收到的信息通过自我学习控制方法来处理,再由传感系统接收控制信息后控制配送小车的运动状态,其自我学习控制方法包括如下步骤:
⑴通过传感系统获取环境信息,包括视觉环境信息和非视觉信息;
⑵根据所述步骤⑴中获取的环境信息,初始化神经网络参数,包括环境状态信息和奖赏信息,并初始化强化学习算法的各项参数;
⑶对周边环境反馈的图像信息进行处理,通过数字化处理将图像信息处理为灰度图像,使用深度卷积网络进行特征提取和训练,将高维度的环境视觉信息转换成低维度的特征信息,低维度特征信息与所述非视觉信息作为当前值网络和目标值网络的输入状态st;
⑷在状态st下,根据当前值网络利用强化学习算法中的动作值函数Q(s,a)计算获得行动at,配送小车执行行动at后,获得新的环境状态st+1和立即奖赏rt;
⑸更新当前值网络和目标值网络的参数,采用随机小批量梯度下降更新方式更新参数;
所述当前值网络损失函数计算方式:其中Q(s′,a′;θi-)表示下一个状态下的状态动作值,Q(s,a;θi)为当前状态下的状态动作值,γ为回报函数的折扣因子,γ:0≤γ≤1,E()为梯度下降算法中的损失函数,r为立即奖赏值,θ表示网络参数;
所述目标值网络在每执行N步后更新为当前值网络的值;
⑹查看是否满足学习终止条件,若不满足,则返回到步骤4继续循环,否则结束;所述学习终止条件为完成配送任务,或完成设定步数;
在所述步骤⑷中,设置经验池E,该经验池E中存放内容为:根据动作值函数Q(s,a)选择动作并执行,将当前状态s、动作a、执行动作所获得立即奖赏r和到达的下一个状态s′作为一个元组保存到经验池E中,并重复上述步骤三万~五万步,均存放于经验池E中,所述步骤⑸中的更新当前值网络和目标值网络的参数,需从经验池E中进行采样;
所述经验池E中还包括一碰撞经验池E2,该碰撞经验池E2中填充内容为:从经验池E中随机抽取四个样本,将其状态s作为当前值网络的第一层隐藏层的输入,由当前值网络输出动作值函数Q(s,a),并根据动作值函数选择所采取的动作at,若在碰撞经验池E2中已经存在(s,a),则在其余动作中重新选择动作at;配送小车执行动作at后,获得新的环境状态st+1和立即奖赏rt,并通过当前值网络损失函数更新当前值网络的参数,若配送小车状态为碰撞到杂物状态,则将该状态前X帧的动作值保存至碰撞经验池E2内,所述步骤⑸中的采样样本从碰撞经验池E2中选取。
2.根据权利要求1所述基于深度Q网络配送小车的自动行驶控制方法,其特征在于:所述当前值网络由三层卷积神经网络和一层全连接层组成,激活函数为relu函数;用于处理经过传感系统处理得到的图像信息,其中卷积神经网络提取图像特征后通过激活函数relu输出动作值函数Q(s,a),并根据动作值函数Q(s,a)用ε-Greedy贪心策略选择动作a。
3.根据权利要求1所述的基于深度Q网络配送小车的自动行驶控制方法,其特征在于:
状态S表示为:传感系统感知的环境状态,是配送小车视野内的道路环境信息和其它道路周边信息;
行动a表示为:在当前状态下可以执行的操作集合,包括控制配送小车的加速、减速和转弯;
立即奖赏r是:在当前状态下配送小车所采取的行动的评价,若配送小车执行动作后依然在道路上且未被磕碰,则给一个+1的奖赏;若配送小车在行进过程中撞到了其他障碍物,则给一个-1000的奖赏。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810199115.6/1.html,转载请声明来源钻瓜专利网。