[发明专利]基于逆向强化学习的驾驶员行为建模方法有效

申请号：	201810660203.1	申请日：	2018-06-25
公开（公告）号：	CN108819948B	公开（公告）日：	2020-05-19
发明（设计）人：	邹启杰;李昊宇;裴炳南	申请（专利权）人：	大连大学
主分类号：	B60W40/09	分类号：	B60W40/09;B60W50/00
代理公司：	大连智高专利事务所(特殊普通合伙) 21235	代理人：	盖小静
地址：	116622 辽宁省***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于逆向强化学习驾驶员行为建模方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于逆向强化学习的驾驶员行为建模方法，其特征在于，具体包括如下步骤：

S1，构建驾驶环境特征提取器，用于提取构建回报函数的特征；

S2，构建回报函数生成器，用于驾驶策略的获取；

S3，构建驾驶策略获取器，完成驾驶策略的构建；

S4，判断获取器构建的最优驾驶策略，其是否满足评判标准；若不满足，则重复执行步骤S2重新构建回报函数，重复构建最优驾驶策略，反复迭代，直到满足评判标准；最终获得描述真实驾驶示范的驾驶策略；

步骤S1的具体实现过程是：

S11.在车辆行驶过程中，利用放在车辆挡风玻璃后面的摄像机对驾驶视频进行采样，获得N组不同车辆驾驶环境道路情况的图片；同时对应驾驶操作数据，即该道路环境下的转向角情况，联合构建起来训练数据；

S12.对收集来的图片进行平移、裁剪、变更亮度操作，以模拟不同光照和天气的场景；

S13.构建卷积神经网络，将经过处理后的图片作为输入，对应图片的操作数据作为标签值，进行训练，采用基于Nadam优化器的优化方法对均方误差损失求最优解来优化神经网络的权重参数；

S14.将训练完成后的卷积神经网络的网络结构和权值保存，以建立新的一个卷积神经网络，完成状态特征提取器；

步骤S2的具体实现过程是：

S21.获得专家的驾驶示范数据：驾驶示范数据来自对于示范驾驶视频数据的采样提取，按照一定频率对一段连续的驾驶视频进行采样，得到一组轨迹示范；一个专家示范数据包括多条轨迹，总体记做：

其中D_E表示整体的驾驶示范数据，(s_j,a_j)表示对应状态j和该状态对应决策指令构成的数据对，M代表总共的驾驶示范数据的个数，N_T代表各条驾驶示范轨迹，L_i代表第i条驾驶示范轨迹中包含的状态-决策指令对(s_j,a_j)的个数；

S22.求取驾驶示范的特征期望值；

首先将驾驶示范数据D_E中的各个描述驾驶环境情况的状态s_t输入S1中的状态特征提取器中，获得对应状态s_t下的特征情况f(s_t,a_t)，f(s_t,a_t)代指一组对应s_t的影响驾驶决策结果的驾驶环境场景特征值，然后基于下述公式计算出来驾驶示范的特征期望值：

其中γ为折扣因子，根据问题的不同，对应进行设置；

S23.求取贪婪策略下的状态-动作集；

S24.求取回报函数的权值。

2.根据权利要求1所述一种基于逆向强化学习的驾驶员行为建模方法，其特征在于，步骤S13中建立的卷积神经网络包括1个输入层、3个卷积层、3个池化层、4个全连接层；输入层依次连接第一个卷积层、第一个池化层，然后连接第二个卷积层、第二个池化层，再连接第三个卷积层、第三个池化层，最后依次连接第一个全连接层、第二个全连接层、第三个全连接层、第四个全连接层。

3.根据权利要求1所述一种基于逆向强化学习的驾驶员行为建模方法，其特征在于，步骤S14中的训练完成后的卷积神经网络不包括输出层。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连大学，未经大连大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810660203.1/1.html，转载请声明来源钻瓜专利网。

上一篇：基于驾驶员座椅的驾驶员状态监测分析方法及分析系统
下一篇：用于车辆的、自动的运动控制的方法

同类专利

专利分类

B 作业；运输

B60 一般车辆
B60W 不同类型或不同功能的车辆子系统的联合控制；专门适用于混合动力车辆的控制系统；不与某一特定子系统的控制相关联的道路车辆驾驶控制系统
B60W40-00 不与某一特定子系统的控制相关联的道路车辆驾驶控制系统的驾驶参数的判断或计算
B60W40-02 .涉及周围的路况
B60W40-08 .涉及驾驶员或乘客的
B60W40-10 .涉及车辆的运动
B60W40-12 .涉及车辆自身的参数
B60W40-13 ..载荷或重量`

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于逆向强化学习的驾驶员行为建模方法有效

专利文献下载