[发明专利]基于生成对抗模仿学习的自动泊车方法及系统有效
申请号: | 202010260031.6 | 申请日: | 2020-04-03 |
公开(公告)号: | CN111348034B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 朱佳成;章宗长 | 申请(专利权)人: | 南栖仙策(南京)科技有限公司 |
主分类号: | B60W30/06 | 分类号: | B60W30/06;G06N20/00 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 殷海霞 |
地址: | 210034 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 生成 对抗 模仿 学习 自动 泊车 方法 系统 | ||
1.一种基于生成对抗模仿学习的自动泊车方法,其特征在于,包括如下步骤:
步骤S1:获取成功泊车的专家样本数据以及泊车失败的第一轮样本数据;
步骤S2:使用策略学习单元中的生成器与环境进行交互,并采集学习过程中的第一轮样本数据,对所述学习过程中的第一轮样本数据进行采样并处理提取出第一轮样本特征数据,同时,将所述专家样本数据进行采样并处理提取出成功样本特征数据以及对失败的第一轮样本数据进行采样并处理提取出第一轮失败样本特征数据;
步骤S3:将第一轮样本特征数据、成功样本特征数据、第一轮失败样本特征数据分别输入判别器中进行判断,得到第一轮样本判别概率、第一轮专家样本判别概率以及第一轮失败样本判别概率,并依据对生成样本判别的结果给与所述生成器奖赏;同时,第一次更新所述判别器;
步骤S4:所述生成器根据所述判别器给与的奖赏,完成第一次更新,再与环境交互产生第二轮样本数据,并将产生的泊车失败数据反馈至泊车失败的第一轮样本数据中,形成泊车失败的第二轮样本数据;
步骤S5:对所述与环境交互产生的第二轮样本数据进行采样并处理提取出第二轮样本特征数据,对失败的第二轮样本数据进行采样并处理提取出第二轮失败样本特征数据,将第二轮样本特征数据、成功样本特征数据、第二轮失败样本特征数据分别输入第一次更新后的判别器中进行判断,得到第二轮样本判别概率、第二轮专家样本判别概率以及第二轮失败样本判别概率,并依据对生成样本判别的结果给与所述生成器奖赏;同时,第二次更新所述判别器;
步骤S6:所述生成器根据所述判别器给与的奖赏,完成下一次更新,再与环境交互产生下一个样本数据,对下一个样本数据进行处理,并对应更新所述判别器,直到所述生成器生成的数据使得所述判别器不能准确判断为止。
2.根据权利要求1所述的基于生成对抗模仿学习的自动泊车方法,其特征在于:所述专家样本数据存储在专家样本中,且从专家样本中采样得到。
3.根据权利要求1或2所述的基于生成对抗模仿学习的自动泊车方法,其特征在于:所述专家样本数据包括泊车成功的状态数据和动作数据,且所述泊车成功的状态数据是以一系列的图像进行存储。
4.根据权利要求1所述的基于生成对抗模仿学习的自动泊车方法,其特征在于:所述泊车失败的第一轮样本数据包括专家演示过程中产生的泊车失败的样本数据,泊车失败的样本数据包括泊车失败的状态数据和动作数据,且所述泊车失败的状态数据是以一系列的图像进行存储。
5.根据权利要求1所述的基于生成对抗模仿学习的自动泊车方法,其特征在于:所述生成器是多层神经网络,包括输入层、卷积层、池化层、全连接层以及输出层。
6.根据权利要求1所述的基于生成对抗模仿学习的自动泊车方法,其特征在于:所述判别器是二分类网络,包括输入层、卷积层、池化层、全连接层以及输出层。
7.根据权利要求1或6所述的基于生成对抗模仿学习的自动泊车方法,其特征在于:更新所述判别器的方法为:根据判别器对第N轮样本特征数据、成功样本特征数据、第N轮失败样本特征数据的判断,通过监督学习的方法更新所述判别器。
8.根据权利要求1所述的基于生成对抗模仿学习的自动泊车方法,其特征在于:所述生成器进行更新的方法为:所述生成器根据所述判别器给与的奖赏,通过优化网络参数完成更新。
9.根据权利要求1所述的基于生成对抗模仿学习的自动泊车方法,其特征在于:所述步骤S6完成后,存储最后学习到的策略。
10.一种基于生成对抗模仿学习的自动泊车系统,其特征在于,包括:
存储单元,所述存储单元包括专家样本存储单元以及失败样本存储单元,其中所述专家样本存储单元用于存储成功泊车的专家样本数据,所述失败样本存储单元用于存储泊车失败的样本数据;
图像处理单元,用于对高维图像数据进行处理,并从泊车轨迹图像中提取特征;
策略学习单元,基于生成对抗模仿学习方法学习与专家泊车行为相似的泊车策略,
其中使用策略学习单元中的生成器与环境进行交互,并采集学习过程中的第一轮样本数据,对所述第一轮样本数据进行采样并处理提取出第一轮样本特征数据,同时,将所述专家样本数据进行采样并处理提取出成功样本特征数据以及对失败的第一轮样本数据进行采样并处理提取出第一轮失败样本特征数据;将第一轮样本特征数据、成功样本特征数据、第一轮失败样本特征数据分别输入判别器中进行判断,得到第一轮样本判别概率、第一轮专家样本判别概率以及第一轮失败样本判别概率,并依据对生成样本判别的结果给与所述生成器奖赏;同时,第一次更新所述判别器;所述生成器根据所述判别器给与的奖赏,完成第一次更新,再与环境交互产生第二轮样本数据,并将产生的泊车失败数据反馈至泊车失败的第一轮样本数据中,形成泊车失败的第二轮样本数据;对所述与环境交互产生的第二轮样本数据进行采样并处理提取出第二轮样本特征数据,对失败的第二轮样本数据进行采样并处理提取出第二轮失败样本特征数据,将第二轮样本特征数据、成功样本特征数据、第二轮失败样本特征数据分别输入第一次更新后的判别器中进行判断,得到第二轮样本判别概率、第二轮专家样本判别概率以及第二轮失败样本判别概率,并依据对生成样本判别的结果给与所述生成器奖赏;同时,第二次更新所述判别器;所述生成器根据所述判别器给与的奖赏,完成下一次更新,再与环境交互产生下一个样本数据,对下一个样本数据进行处理,并对应更新所述判别器,直到所述生成器生成的数据使得所述判别器不能准确判断为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南栖仙策(南京)科技有限公司,未经南栖仙策(南京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010260031.6/1.html,转载请声明来源钻瓜专利网。