[发明专利]基于逆向强化学习的驾驶员行为建模方法有效

申请号：	201810660203.1	申请日：	2018-06-25
公开（公告）号：	CN108819948B	公开（公告）日：	2020-05-19
发明（设计）人：	邹启杰;李昊宇;裴炳南	申请（专利权）人：	大连大学
主分类号：	B60W40/09	分类号：	B60W40/09;B60W50/00
代理公司：	大连智高专利事务所(特殊普通合伙) 21235	代理人：	盖小静
地址：	116622 辽宁省***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于逆向强化学习驾驶员行为建模方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于逆向强化学习的驾驶员行为建模方法，具体包括如下步骤：S1，构建驾驶环境特征提取器，用于提取构建回报函数的特征；S2，构建回报函数生成器，用于驾驶策略的获取；S3，构建驾驶策略获取器，完成驾驶策略的构建；S4，判断获取器构建的最优驾驶策略，其是否满足评判标准；若不满足，则重复执行步骤S2重新构建回报函数，重复构建最优驾驶策略，反复迭代，直到满足评判标准；最终获得描述真实驾驶示范的驾驶策略。本申请可以对于新的状态场景进行适用，来获得其对应动作，大大提高了建立的驾驶员行为模型的泛化能力，适用场景更广，鲁棒性更强。

技术领域

本发明涉及一种建模方法，具体说是一种基于逆向强化学习的驾驶员行为建模方法。

背景技术

自主驾驶作为智能交通领域的一个重要部分。受当前技术等原因，自主车依旧需要智能驾驶系统(智能辅助驾驶系统)和人类驾驶员相互协作以完成驾驶任务。而在这个过程中，无论是更好的量化驾驶员的信息以供智能系统决策，还是通过区分驾驶员的不同为人们提供个性化的服务，驾驶员建模都是必不可少的重要步骤。

在当前有关驾驶员建模的方法中，强化学习方法因为对于驾驶员在车辆驾驶这样具有大规模连续空间以及多个优化目标的复杂序贯决策问题，有着很好的解决效果，于是也是一种针对驾驶员行为建模有效的方法。强化学习作为基于MDP的问题解决方法，需要和环境交互，采取行动以获取来自环境的评价性质的反馈信号即回报(reward)，并使长期的回报最大化。

通过对于现有文献的检索发现，现有的对于驾驶员行为建模中，对于回报函数的设置方法，主要包括：传统的由研究人员手动针对不同场景状态进行设置的方法，以及借助逆向强化学习的方法来设置的方法。传统的方法对于研究人员的主观性依赖极大，回报函数的好坏取决于研究人员的能力与经验。同时因为在车辆行驶过程中，为了正确的设置回报函数，需要平衡大量的决策变量，这些变量存在极大的不可共度性甚至矛盾性，而研究人员往往无法设计出来能够平衡各项需求的回报函数。

而逆向强化学习借助驾驶示范数据，为各类驾驶特征分配适合的权重，可以自动学习得到所需要的回报函数，进而解决了原有的人为决策的不足。但传统逆向强化学习方法，只能对于驾驶示范数据中已存在的场景状态进行学习，而实际驾驶的时候，因为天气、景物等因素的不同，真实驾驶场景往往超越驾驶示范范围。因而，逆向强化学习的方法解决将驾驶示范数据中场景和决策动作的关系表现出泛化能力不足的问题。

现有基于强化学习理论的驾驶员行为建模方法主要有两种思路：思路一，采用传统强化学习的方法，其回报函数的设置依赖研究人员对于场景的分析、整理、筛选和归纳，进而获得到一系列驾驶决策有关的特征，如：车前距、是否远离路缘、是否远离行人、合理速度、变道频率等；再根据驾驶场景需求，设计一系列的实验来求取这些特征在对应场景环境下的回报函数中的权重占比，最后完成对于回报函数的整体设计，而作为描述驾驶员驾驶行为的模型。思路二，基于概率模型建模方法，采用最大熵逆向强化学习求解驾驶行为特征函数。首先假定存在潜在的、特定的一个概率分布，产生了驾驶的示范轨迹；进而，需要来找到一个能够拟合驾驶示范的概率分布，而求取这个概率分布的问题可转化为非线性规划问题，即：

max-plogp

∑P＝1

P代指的就是示范轨迹的概率分布，通过上面的式子求解得到概率分布后，由

求取得到相关参数，即可求得回报函数r＝θ^Tf(s_t)。

传统的驾驶员驾驶行为模型，利用已知驾驶数据分析、描述和推理驾驶行为，然而已采集的驾驶数据并不能完全覆盖无穷无尽的驾驶行为特征，更不可能获取全部状态对应动作的情况。在实际驾驶场景下，因为天气、场景、物体的不同，驾驶状态有着众多可能，遍历全部的状态是不可能的事情。因此传统驾驶员驾驶行为模型泛化能力弱，模型假设条件多，鲁棒性差。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连大学，未经大连大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810660203.1/2.html，转载请声明来源钻瓜专利网。

上一篇：基于驾驶员座椅的驾驶员状态监测分析方法及分析系统
下一篇：用于车辆的、自动的运动控制的方法

同类专利

专利分类

B 作业；运输

B60 一般车辆
B60W 不同类型或不同功能的车辆子系统的联合控制；专门适用于混合动力车辆的控制系统；不与某一特定子系统的控制相关联的道路车辆驾驶控制系统
B60W40-00 不与某一特定子系统的控制相关联的道路车辆驾驶控制系统的驾驶参数的判断或计算
B60W40-02 .涉及周围的路况
B60W40-08 .涉及驾驶员或乘客的
B60W40-10 .涉及车辆的运动
B60W40-12 .涉及车辆自身的参数
B60W40-13 ..载荷或重量`

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于逆向强化学习的驾驶员行为建模方法有效

专利文献下载