[发明专利]基于深度Q网络配送小车的自动行驶控制方法有效
申请号: | 201810199115.6 | 申请日: | 2018-03-12 |
公开(公告)号: | CN108594804B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 朱斐;吴文;伏玉琛;周小科 | 申请(专利权)人: | 苏州大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06K9/00 |
代理公司: | 苏州简理知识产权代理有限公司 32371 | 代理人: | 朱亦倩 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度Q网络配送小车的自动行驶控制方法,其特征在于:包括传感系统、控制系统、驱动系统及电力系统,所述传感系统采集环境信息和电力系统信息,并将环境信息和电力系统信息传入控制系统,所述控制系统根据接收到的信息通过自我学习控制方法来处理,控制配送小车的运动状态。本发明通过在无人控制小车的控制系统中采用有安全距离的深度强化学习优化方法,处理来自传感系统获取的环境信息,然后选择合适的行动,并利用传感系统传递控制系统的控制信号到驱动系统,使无人控制小车执行对应的行动来适应千变万化的道路环境。 | ||
搜索关键词: | 基于 深度 网络 配送 小车 自动 行驶 控制 方法 | ||
【主权项】:
1.一种基于深度Q网络配送小车的自动行驶控制方法,包括传感系统、控制系统、驱动系统及电力系统,所述传感系统采集环境信息和电力系统信息,并将环境信息和电力系统信息传入控制系统,所述控制系统根据接收到的信息通过自我学习控制方法来处理,再由传感系统接收控制信息后控制配送小车的运动状态,其自我学习控制方法包括如下步骤:⑴通过传感系统获取环境信息,包括视觉环境信息和非视觉信息;⑵根据所述步骤⑴中获取的环境信息,初始化神经网络参数,包括环境状态信息和奖赏信息,并初始化强化学习算法的各项参数;⑶对周边环境反馈的图像信息进行处理,通过数字化处理将图像信息处理为灰度图像,使用深度卷积网络进行特征提取和训练,将高维度的环境视觉信息转换成低纬度的特征信息,低维度特征信息与所述非视觉信息作为当前值网络和目标值网络的输入状态st;⑷在状态st下,根据当前值网络利用强化学习算法中的动作值函数Q(s,a)计算获得行动at,配送小车执行行动at后,获得新的环境状态st+1和立即奖赏rt;⑸更新当前值网络和目标值网络的参数,采用随机小批量梯度下降更新方式更新参数;所述当前值网络损失函数计算方式:
其中
表示下一个状态下的状态动作值,Q(s,a;θi)为当前状态下的状态动作值,γ为回报函数的折扣因子,γ(0≤γ≤1),E()为梯度下降算法中的损失函数,r为立即奖赏值,θ表示网络参数;所述目标值网络在每执行N步后更新为当前值网络的值;⑹查看是否满足学习终止条件,若不满足,则返回到步骤4继续循环,否则结束;所述学习终止条件为完成配送任务,或完成设定步数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810199115.6/,转载请声明来源钻瓜专利网。