[发明专利]一种摄像器材记录的视频图像数据的高维模仿学习方法在审

申请号：	202011450396.1	申请日：	2020-12-09
公开（公告）号：	CN112529160A	公开（公告）日：	2021-03-19
发明（设计）人：	周志华;姜远;蔡欣强;丁尧相	申请（专利权）人：	南京大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06N20/00;G06T7/207;G06T9/00
代理公司：	南京乐羽知行专利代理事务所(普通合伙) 32326	代理人：	李玉平
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种摄像器材记录视频图像数据模仿学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种摄像器材记录的视频图像数据的高维模仿学习方法，首先利用高效卷积神经网络的自动编码器作为特征抽取器将智能体采集的图像数据压缩成编码，之后对编码进行二值化处理；获得智能体的图像数据的二值编码后，使用全连接神经网络输出奖赏信号；最后将奖赏信号输入给现有的智能体进行学习，从而获得能够很好地模仿专家行为的智能体。在实用阶段，只需给模型输入专家示范的数据和智能体与环境交互采集到的图像数据，就能获得高效的奖赏信号，该信号可直接用于智能体进行强化学习训练。由于该方法可处理高维视频图像数据，因此模型可运行在搭载有摄像器材的设备上。

技术领域

本发明涉及深度学习、强化学习、模仿学习、应用技术，特别涉及深度卷积神经网络、自动编码器、对抗生成网络技术，具体是一种针对搭载有摄像器材的高维图像输入的智能体模仿学习方法。

背景技术

强化学习是机器学习中的一个重要领域，强调智能体如何基于环境而行动，以取得最大化的预期利益。从2015年AlphaGo使用强化学习方法在围棋领域击败人类顶级专家开始，强化学习技术便逐渐在科技、生活等各个领域崭露头角。传统强化学习任务的流程为：1)智能体接收到环境env的状态信号s_t；2)智能体根据当前状态信号s_t对env施加一个动作信号a_t，并接收到env的奖赏信号r_t；3)env根据当前状态动作信号对(s_t,a_t)给予智能体下一个状态信号s_t+1；4)智能体使用搜集到的数据{(s_t,a_t,r_t,s_t+1)}进行学习。在传统的强化学习任务中，通常通过计算累积奖赏来学习最优策略，此时的奖赏机制r(s_t,a_t)需要人为制定；但对于现今越来越复杂的环境，人为制定奖赏机制需要耗费大量的资源，且很难获得很好的效果。而模仿学习则是利用专家提供的范例{τ₁,τ₂,…,τ_m}(其中τ_i＝{(s₁,a₁),(s₂,a₂),…,(s_n,a_n)}为专家示范的一系列状态动作信号对，即专家轨迹)取代奖赏机制r(s_t,a_t)，使智能体也能学到很好的策略的学习任务。相对传统的强化学习，模仿学习所需的专家范例消耗的人力、物力资源比人工设置奖赏机制要小得多，因此近年来备受关注。

早期的模仿学习比较主流的方法基于监督学习方法，即将专家范例中的“动作”作为数据的“标签”对智能体进行监督学习。由于智能体接触的环境分布在时刻变化，学习效果有很大局限性。随着逆强化学习的提出和强化学习的发展，如今模仿学习这一研究得到了快速进步。当前的主流逆强化学习算法主要考虑从专家数据中学习出奖赏函数然后使用该奖赏函数作为奖赏机制以使用强化学习算法训练智能体，因此现有的模仿学习算法大多都专注于如何更有效地学习奖赏函数。近年来，模仿学习算法在无人车、机器人等智能控制领域取得了飞速发展，即输入状态为当前机器人的各个可控关节转轴角度，给定一系列特定的专家范例，使智能体学习出专家范例潜在的策略，如跑步、跳跃、摔倒后自行站起等。在这些领域，传感器类型多样，输入信息丰富，然而现有的技术必须依赖于事先的信号处理，以降低输入维度(通常为几百维以内)，因而能处理的数据和应用场景都十分有限；相对的高维模仿学习，即以直接利用原始视频图像作为输入状态数据的模仿学习问题，例如自动驾驶和机器人控制任务中摄像头捕捉到的视频画面数据，其状态信息拥有上万维度，即使使用基于高效的卷积神经网络模型的现有方法，效果依然很不理想。

现有的图像数据模仿学习方法着重处理相对低维的场景，但是在实际应用中，复杂的现实环境往往伴随更高的输入维度，例如机器人或车辆搭载的摄像设备捕捉到的场景是维度很高的图像数据，因此需要提出高效的、可以适用于高维图像输入的模仿学习方法。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011450396.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种车载终端的测试方法、系统、装置及存储介质
下一篇：胆钙化醇的硫酸盐及其用于治疗维生素D3

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种摄像器材记录的视频图像数据的高维模仿学习方法在审

专利文献下载