[发明专利]基于生成对抗模仿学习的自动泊车方法及系统有效

申请号：	202010260031.6	申请日：	2020-04-03
公开（公告）号：	CN111348034B	公开（公告）日：	2021-08-24
发明（设计）人：	朱佳成;章宗长	申请（专利权）人：	南栖仙策（南京）科技有限公司
主分类号：	B60W30/06	分类号：	B60W30/06;G06N20/00
代理公司：	苏州市中南伟业知识产权代理事务所(普通合伙) 32257	代理人：	殷海霞
地址：	210034 江苏省南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于生成对抗模仿学习自动泊车方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于生成对抗模仿学习的自动泊车方法，其特征在于，包括如下步骤：

步骤S1：获取成功泊车的专家样本数据以及泊车失败的第一轮样本数据；

步骤S2：使用策略学习单元中的生成器与环境进行交互，并采集学习过程中的第一轮样本数据，对所述学习过程中的第一轮样本数据进行采样并处理提取出第一轮样本特征数据，同时，将所述专家样本数据进行采样并处理提取出成功样本特征数据以及对失败的第一轮样本数据进行采样并处理提取出第一轮失败样本特征数据；

步骤S3：将第一轮样本特征数据、成功样本特征数据、第一轮失败样本特征数据分别输入判别器中进行判断，得到第一轮样本判别概率、第一轮专家样本判别概率以及第一轮失败样本判别概率，并依据对生成样本判别的结果给与所述生成器奖赏；同时，第一次更新所述判别器；

步骤S4：所述生成器根据所述判别器给与的奖赏，完成第一次更新，再与环境交互产生第二轮样本数据，并将产生的泊车失败数据反馈至泊车失败的第一轮样本数据中，形成泊车失败的第二轮样本数据；

步骤S5：对所述与环境交互产生的第二轮样本数据进行采样并处理提取出第二轮样本特征数据，对失败的第二轮样本数据进行采样并处理提取出第二轮失败样本特征数据，将第二轮样本特征数据、成功样本特征数据、第二轮失败样本特征数据分别输入第一次更新后的判别器中进行判断，得到第二轮样本判别概率、第二轮专家样本判别概率以及第二轮失败样本判别概率，并依据对生成样本判别的结果给与所述生成器奖赏；同时，第二次更新所述判别器；

步骤S6：所述生成器根据所述判别器给与的奖赏，完成下一次更新，再与环境交互产生下一个样本数据，对下一个样本数据进行处理，并对应更新所述判别器，直到所述生成器生成的数据使得所述判别器不能准确判断为止。

2.根据权利要求1所述的基于生成对抗模仿学习的自动泊车方法，其特征在于：所述专家样本数据存储在专家样本中，且从专家样本中采样得到。

3.根据权利要求1或2所述的基于生成对抗模仿学习的自动泊车方法，其特征在于：所述专家样本数据包括泊车成功的状态数据和动作数据，且所述泊车成功的状态数据是以一系列的图像进行存储。

4.根据权利要求1所述的基于生成对抗模仿学习的自动泊车方法，其特征在于：所述泊车失败的第一轮样本数据包括专家演示过程中产生的泊车失败的样本数据，泊车失败的样本数据包括泊车失败的状态数据和动作数据，且所述泊车失败的状态数据是以一系列的图像进行存储。

5.根据权利要求1所述的基于生成对抗模仿学习的自动泊车方法，其特征在于：所述生成器是多层神经网络，包括输入层、卷积层、池化层、全连接层以及输出层。

6.根据权利要求1所述的基于生成对抗模仿学习的自动泊车方法，其特征在于：所述判别器是二分类网络，包括输入层、卷积层、池化层、全连接层以及输出层。

7.根据权利要求1或6所述的基于生成对抗模仿学习的自动泊车方法，其特征在于：更新所述判别器的方法为：根据判别器对第N轮样本特征数据、成功样本特征数据、第N轮失败样本特征数据的判断，通过监督学习的方法更新所述判别器。

8.根据权利要求1所述的基于生成对抗模仿学习的自动泊车方法，其特征在于：所述生成器进行更新的方法为：所述生成器根据所述判别器给与的奖赏，通过优化网络参数完成更新。

9.根据权利要求1所述的基于生成对抗模仿学习的自动泊车方法，其特征在于：所述步骤S6完成后，存储最后学习到的策略。

10.一种基于生成对抗模仿学习的自动泊车系统，其特征在于，包括：

存储单元，所述存储单元包括专家样本存储单元以及失败样本存储单元，其中所述专家样本存储单元用于存储成功泊车的专家样本数据，所述失败样本存储单元用于存储泊车失败的样本数据；

图像处理单元，用于对高维图像数据进行处理,并从泊车轨迹图像中提取特征；

策略学习单元，基于生成对抗模仿学习方法学习与专家泊车行为相似的泊车策略，

其中使用策略学习单元中的生成器与环境进行交互，并采集学习过程中的第一轮样本数据，对所述第一轮样本数据进行采样并处理提取出第一轮样本特征数据，同时，将所述专家样本数据进行采样并处理提取出成功样本特征数据以及对失败的第一轮样本数据进行采样并处理提取出第一轮失败样本特征数据；将第一轮样本特征数据、成功样本特征数据、第一轮失败样本特征数据分别输入判别器中进行判断，得到第一轮样本判别概率、第一轮专家样本判别概率以及第一轮失败样本判别概率，并依据对生成样本判别的结果给与所述生成器奖赏；同时，第一次更新所述判别器；所述生成器根据所述判别器给与的奖赏，完成第一次更新，再与环境交互产生第二轮样本数据，并将产生的泊车失败数据反馈至泊车失败的第一轮样本数据中，形成泊车失败的第二轮样本数据；对所述与环境交互产生的第二轮样本数据进行采样并处理提取出第二轮样本特征数据，对失败的第二轮样本数据进行采样并处理提取出第二轮失败样本特征数据，将第二轮样本特征数据、成功样本特征数据、第二轮失败样本特征数据分别输入第一次更新后的判别器中进行判断，得到第二轮样本判别概率、第二轮专家样本判别概率以及第二轮失败样本判别概率，并依据对生成样本判别的结果给与所述生成器奖赏；同时，第二次更新所述判别器；所述生成器根据所述判别器给与的奖赏，完成下一次更新，再与环境交互产生下一个样本数据，对下一个样本数据进行处理，并对应更新所述判别器，直到所述生成器生成的数据使得所述判别器不能准确判断为止。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南栖仙策（南京）科技有限公司，未经南栖仙策（南京）科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010260031.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种双工位倒角机
下一篇：荧光冻胶分散体和荧光冻胶以及荧光改性聚丙烯酰胺复合材料及其制备方法及应用

同类专利

专利分类

B 作业；运输

B60 一般车辆
B60W 不同类型或不同功能的车辆子系统的联合控制；专门适用于混合动力车辆的控制系统；不与某一特定子系统的控制相关联的道路车辆驾驶控制系统
B60W30-00 不与某一特定子系统的控制
B60W30-02 .车辆驾驶稳定性的控制
B60W30-06 .用于驻车的自动操作
B60W30-08 .预测或避免可能的或即将到来的碰撞的
B60W30-10 .路线保持
B60W30-14 .巡航控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于生成对抗模仿学习的自动泊车方法及系统有效

专利文献下载