[发明专利]一种摄像器材记录的视频图像数据的高维模仿学习方法在审
申请号: | 202011450396.1 | 申请日: | 2020-12-09 |
公开(公告)号: | CN112529160A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 周志华;姜远;蔡欣强;丁尧相 | 申请(专利权)人: | 南京大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N20/00;G06T7/207;G06T9/00 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 摄像 器材 记录 视频 图像 数据 模仿 学习方法 | ||
1.一种摄像器材记录的视频图像数据的高维模仿学习方法,其特征在于:包括奖赏信号模型训练步骤以及整体模仿学习的训练步骤;奖赏信号模型训练步骤中利用自动编码器对图像数据进行哈希编码,并通过哈希编码输出奖赏信号;将模型输出的奖赏信号输入给智能体;整体模仿学习的训练步骤中,使用强化学习算法对智能体进行更新,使其学习出专家的策略;整个流程涉及的数据为图像数据,该方法实施在拥有摄像器材的设备上。
2.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法,其特征在于:所述奖赏信号模型结构和训练步骤具体为:
步骤1.1,将智能体采集到的图像数据作为状态图像数据输入给基于卷积神经网络的自动编码器,从而获得图像数据的原始编码,并将原始编码进行二值化处理获得哈希编码,表示为从智能体状态图像数据到智能体哈希编码
步骤1.2,将智能体的动作信号插入智能体哈希编码后端,并在后连接一层全连接神经网络,输出一个实值,代表奖赏信号
步骤1.3,使用专家数据轨迹和智能体搜集到的数据组使用反向传播算法训练模型,通过小批量梯度下降算法优化奖赏信号模型参数。
3.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法,其特征在于:整体模仿学习的训练步骤具体为:
步骤2.1,载有摄像器材的设备获得图像数据后,预处理至指定规格大小;
步骤2.2,智能体根据当前图像数据输出动作信号
步骤2.3,将输入给环境env,env反馈给智能体下一图像数据
步骤2.4,将输入给奖赏模型,获得奖赏信号
步骤2.5,将搜集到的数据组对智能体使用现有的强化学习算法进行更新,并更新奖赏信号模型参数。
4.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法,其特征在于:使用所述基于卷积神经网络的自动编码器获取哈希编码,使用有监督的哈希算法;令专家数据的编码与智能体采集到的数据的编码间的曼哈顿距离为d1,来源相同的数据编码间的曼哈顿距离为d2;在哈希算法的作用下,使得d1d2,以此来保证降维函数本身获得监督信息。
5.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法,其特征在于:对于数据组使用近端策略优化算法得到梯度,并通过小批量梯度下降算法优化智能体策略模型参数。
6.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法,其特征在于:对于数据组使用近端策略优化算法得到梯度,并通过小批量梯度下降算法优化智能体策略模型参数。
7.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法,其特征在于:对于专家数据和智能体采样数据使用对抗生成网络的对抗网络更新算法以及有监督的哈希算法得到梯度,并通过小批量梯度下降算法优化奖赏信号模型参数。
8.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法,其特征在于:所述预处理至指定规格大小,具体为:通过对输入图像进行缩放、剪裁、翻转等手段将图像变化为指定规格大小或格式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011450396.1/1.html,转载请声明来源钻瓜专利网。