[发明专利]基于生成对抗模仿学习的自动泊车方法及系统有效
申请号: | 202010260031.6 | 申请日: | 2020-04-03 |
公开(公告)号: | CN111348034B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 朱佳成;章宗长 | 申请(专利权)人: | 南栖仙策(南京)科技有限公司 |
主分类号: | B60W30/06 | 分类号: | B60W30/06;G06N20/00 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 殷海霞 |
地址: | 210034 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 生成 对抗 模仿 学习 自动 泊车 方法 系统 | ||
本发明涉及一种基于生成对抗模仿学习的自动泊车方法及系统,利用泊车轨迹的原始图像数据,基于生成对抗模仿学习生成相应的泊车策略,且生成的泊车策略在实际泊车过程中产生的泊车轨迹应该与成功的泊车轨迹相似。本申请由于是一种在线学习算法,在学习的同时会进行很多次实验,并且在成功学习到优秀的泊车策略前会经历很多次失败,但是可以将这些失败的泊车轨迹数据存储下用于进一步的学习,这样能够加快学习速度并提高样本利用率。本发明由于学得的智能泊车策略不是基于规则的,而是一种较为智能的策略,因此使其能够胜任不同场景下的自动泊车。
技术领域
本发明涉及自动驾驶中的智能泊车的技术领域,尤其是指一种基于生成对抗模仿学习的自动泊车方法及系统。
背景技术
车辆依据车位线进行规范停车,有利于城市资源空间的合理利用,有利于车辆启停的安全性,有利于市容的规划。由于现代汽车数量的庞大以及实际环境的千差万别,停车问题往往耗费人们的时间与精力,甚至造成车辆间的摩擦、碰撞等安全事故,自动泊车系统因此拥有了其存在与发展的空间。
目前来说,自动泊车领域中大部分的泊车方法都是在大量硬件支持下以基于规则的方式实现的。在人工智能领域内,如强化学习能够很好的解决一些序列决策问题,并且在很多应用中也表现出了它的良好性能。但是强化学习需要有一个良好定义的环境奖赏函数R才能学到一个较好的策略。在很多问题中,人工定义这样一个奖赏函数是很困难的,比如自动驾驶领域中,需要考虑安全、效率以及舒适程度,但是影响这些的因素有很多,因此很难从中定义这样一个奖赏函数。
而模仿学习是一种能够从专家示范中模仿专家行为从而学习到一个良好策略的学习方法,它将获取成本较大的环境奖赏函数转化为获取成本较小的专家示范轨迹,很好的解决了强化学习对于奖赏函数的依赖问题。模仿学习方法通常被分为两类:一类是行为克隆(Behavioral Cloning),利用专家轨迹信息中的状态动作对直接进行监督学习,获取一个简单的状态到动作的映射策略。但是这种方法容易产生级联误差,即在其中某一步出现微小的误差后,会一直对后续的轨迹造成影响并逐渐放大;另一种是逆强化学习方法(Inverse Reinforcement Learning),逆强化学习方法首先假设专家示范是基于一个未知奖赏函数下的最优策略产生的。逆强化学习先求出这个奖赏函数,再利用这个奖赏函数通过强化学习过程求得最优策略。这种方法由于在学习的内循环中包含了强化学习过程,使得计算量非常庞大。
发明内容
为此,本发明所要解决的技术问题在于克服现有计算复杂,且泊车不够灵活的问题,从而提供一种计算简单,且泊车灵活的基于生成对抗模仿学习的自动泊车方法及系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南栖仙策(南京)科技有限公司,未经南栖仙策(南京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010260031.6/2.html,转载请声明来源钻瓜专利网。