[发明专利]基于强化学习转角权重分配的人车协同转向控制方法在审
申请号: | 202210642626.7 | 申请日: | 2022-06-08 |
公开(公告)号: | CN115062539A | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 汪洪波;冯立钊;夏兆君;高振刚;沈杨 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F17/10;B60W50/00;G06F119/02 |
代理公司: | 合肥市泽信专利代理事务所(普通合伙) 34144 | 代理人: | 方荣肖 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 转角 权重 分配 协同 转向 控制 方法 | ||
1.一种基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,其包括训练进行和训练结束两个部分;
训练进行时,无人驾驶汽车的驾驶员模型参与迭代训练过程,采用DQN智能体实时分配所述无人驾驶汽车的控制器和所述驾驶员模型的权重,并且通过所述无人驾驶汽车的车辆状态和评估网络实时对所述无人驾驶汽车的策略网络进行更新;
经过一定迭代次数以后,所述策略网络迭代完成,训练结束,保持最后更新的策略网络的网络参数不变,此时所述评估网络不参与所述控制器和所述驾驶员模型的权重分配过程,所述DQN智能体通过最后更新的策略网络实时分配所述控制器和所述驾驶员模型的权重。
2.如权利要求1所述的基于合作模式强化学习转角权重分配的人车协同转向控制方法,其特征在于,针对所述无人驾驶汽车,设计基于BP神经网络的驾驶员模型参与强化学习的自我迭代过程,所述自我迭代过程为:
定义所述BP神经网络的输入特征量s为:
其中,edis为所述无人驾驶汽车的横向误差;eyaw为所述无人驾驶汽车的航向角误差;为所述无人驾驶汽车的横向误差变化率;为所述无人驾驶汽车的航向角误差变化率;k为路径曲率;
定义所述BP神经网络的第i层输出hi为:
hi=σi(wihi-1+bi) (2)
其中,wi表示第i层的网络权重;bi表示第i层的网络偏差;σi为第i层的激活函数;hi-1为第i-1层的神经元值;
定义所述BP神经网络的第一层输出h1为:
h1=s (3)
定义驾驶员通过所述BP神经网络最终输出转角δf为:
δf=net(s) (4)
其中,net(s)为所述BP神经网络的网络函数;
定义第一层的激活函数σ1为:
定义第二、三层的激活函数σ2、σ3均为:
利用所述BP神经网络做线性拟合作用,所述BP神经网络的输出层神经元个数为1,则定义损失函数loss为:
其中,m1为选取样本数目,为第i1个无人驾驶汽车样本经过所述BP神经网络net输出的前轮目标转角,为第i1个无人驾驶汽车样本的前轮的实际转角;
根据所述损失函数对所述BP神经网络计算相应梯度,进行所述网络权重、所述网络偏差更新,经过一定训练周期后,生成符合期望的驾驶员模型网络;
迭代训练所述前轮目标转角
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210642626.7/1.html,转载请声明来源钻瓜专利网。