[发明专利]一种摄像器材记录的视频图像数据的高维模仿学习方法在审

申请号：	202011450396.1	申请日：	2020-12-09
公开（公告）号：	CN112529160A	公开（公告）日：	2021-03-19
发明（设计）人：	周志华;姜远;蔡欣强;丁尧相	申请（专利权）人：	南京大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06N20/00;G06T7/207;G06T9/00
代理公司：	南京乐羽知行专利代理事务所(普通合伙) 32326	代理人：	李玉平
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种摄像器材记录视频图像数据模仿学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种摄像器材记录的视频图像数据的高维模仿学习方法，其特征在于：包括奖赏信号模型训练步骤以及整体模仿学习的训练步骤；奖赏信号模型训练步骤中利用自动编码器对图像数据进行哈希编码，并通过哈希编码输出奖赏信号；将模型输出的奖赏信号输入给智能体；整体模仿学习的训练步骤中，使用强化学习算法对智能体进行更新，使其学习出专家的策略；整个流程涉及的数据为图像数据，该方法实施在拥有摄像器材的设备上。

2.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法，其特征在于：所述奖赏信号模型结构和训练步骤具体为：

步骤1.1，将智能体采集到的图像数据作为状态图像数据输入给基于卷积神经网络的自动编码器，从而获得图像数据的原始编码，并将原始编码进行二值化处理获得哈希编码，表示为从智能体状态图像数据到智能体哈希编码

步骤1.2，将智能体的动作信号插入智能体哈希编码后端，并在后连接一层全连接神经网络，输出一个实值，代表奖赏信号

步骤1.3，使用专家数据轨迹和智能体搜集到的数据组使用反向传播算法训练模型，通过小批量梯度下降算法优化奖赏信号模型参数。

3.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法，其特征在于：整体模仿学习的训练步骤具体为：

步骤2.1，载有摄像器材的设备获得图像数据后，预处理至指定规格大小；

步骤2.2，智能体根据当前图像数据输出动作信号

步骤2.3，将输入给环境env，env反馈给智能体下一图像数据

步骤2.4，将输入给奖赏模型，获得奖赏信号

步骤2.5，将搜集到的数据组对智能体使用现有的强化学习算法进行更新，并更新奖赏信号模型参数。

4.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法，其特征在于：使用所述基于卷积神经网络的自动编码器获取哈希编码，使用有监督的哈希算法；令专家数据的编码与智能体采集到的数据的编码间的曼哈顿距离为d₁，来源相同的数据编码间的曼哈顿距离为d₂；在哈希算法的作用下，使得d₁d₂，以此来保证降维函数本身获得监督信息。

5.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法，其特征在于：对于数据组使用近端策略优化算法得到梯度，并通过小批量梯度下降算法优化智能体策略模型参数。

6.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法，其特征在于：对于数据组使用近端策略优化算法得到梯度，并通过小批量梯度下降算法优化智能体策略模型参数。

7.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法，其特征在于：对于专家数据和智能体采样数据使用对抗生成网络的对抗网络更新算法以及有监督的哈希算法得到梯度，并通过小批量梯度下降算法优化奖赏信号模型参数。

8.根据权利要求1所述的摄像器材记录的视频图像数据的高维模仿学习方法，其特征在于：所述预处理至指定规格大小，具体为：通过对输入图像进行缩放、剪裁、翻转等手段将图像变化为指定规格大小或格式。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011450396.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种车载终端的测试方法、系统、装置及存储介质
下一篇：胆钙化醇的硫酸盐及其用于治疗维生素D3

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种摄像器材记录的视频图像数据的高维模仿学习方法在审

专利文献下载