[发明专利]一种基于提示及环境自动探索的视觉语言导航预训练方法在审
申请号: | 202210603150.6 | 申请日: | 2022-05-30 |
公开(公告)号: | CN114970457A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 李玲玲;梁曦文;梁小丹;王可泽 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/186;G06F40/194;G06F40/258;G06K9/62 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 郑堪泳 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 提示 环境 自动 探索 视觉 语言 导航 训练 方法 | ||
本发明提供一种基于提示及环境自动探索的视觉语言导航预训练方法,该方法首先通过屏蔽标记指令中的视觉和动作词来生成指令模板,然后,在训练环境中对轨迹进行采样。预训练的CLIP模型用于识别采样轨迹中的房间和物体,并将描述的短语与它们匹配,通过将匹配的短语填充到样本模板中来构建指令;通过利用CLIP学习的先验知识,能够自动构建具有丰富语义信息的数据集;使用生成的指令路径样本对进行预训练。将连续的任务特定向量(Prompt)添加到输入指令的嵌入中,并直接调整这些向量的嵌入;经过提示调优后,模型可适配VLN和REVERIE任务。
技术领域
本发明涉及视觉语言导航的预训练领域,更具体地,涉及一种基于提示及环境自动探索的视觉语言导航预训练方法。
背景技术
视觉语言导航(Vision-Language Navigation,VLN)是人机交互领域中的一个新兴任务。它的目的是让智能体能够在模拟的真实3D环境中根据自然语言指令导航至正确的目标位置。其中一个关键的研究课题是如何提高智能体在所有已知或未知环境中的导航能力,即提高智能体在不同环境中的泛化能力,学习这种能力需要大规模的数据。然而,用自然语言注释轨迹的过程比注释图像要花费大量的劳动时间,因此收集大规模的VLN数据集是比较困难和耗时的。现有的导航数据集规模相对较小,在此类数据集上的学习影响了智能体的泛化能力。
现有技术:针对这一问题,现有方法主要采取了两种方式:
数据增强:基于现有数据集训练一个Speaker模型以在现有场景中构建新的路径和指令(Speaker-Follower,EnvDrop);混合多个场景进行场景间数据增强(REM);
引入视觉语言预训练模型(VLN-BERT)或从网络上收集大规模室内场景图像文本对进行预训练数据集的构建,进一步减小预训练与下游任务之间的数据鸿沟(Airbert)。VLN-BERT在图像-字幕对数据集上预训练得到视觉语言模型,以从丰富的域外图像文本数据中迁移知识,但这种数据与来自VLN的轨迹-指令对完全不同。为了解决这个问题,Air-bert构建了一个大规模的域内预训练数据集,其中包含从Airbnb等在线市场收集的图像-字幕对来微调ViLBERT。然而,Airbert在网站上收集图像-字幕数据,这与视觉语言导航的场景还相差甚远。综上,从网站上收集的数据集与视觉语言导航场景依旧相差较远。
现有技术中公开了一种视觉语言室内导航方法、系统、终端及应用的专利,该专利利用序列到序列的方法,将自然语言命令和视觉信息相结合,分别对自然语言命令信息和视觉图像信息进行特征提取,在完成特征提取后,分别对提取的特征进行注意力特征的筛选,筛选出与任务相关的关键信息。本发明采用结合机器人的视觉信息和自然语言的信息来进行机器人的室内导航,采用注意力机制使得机器人能够更有效的理解人的语言指令并结合视觉信息,使机器人能按照人类的指令到达目的地,完成任务。然而,该专利对于根据场景自动生成具有先验知识的导航数据,减少预训练数据集和VLN任务之间的域差距,无需人工标记,生成的数据可以用作增强数据,从而提高模型的泛化能力这些技术内容没有任何的提及。
发明内容
本发明提供一种基于提示及环境自动探索的视觉语言导航预训练方法,该方法减少预训练数据集和VLN任务之间的域差距。
为了达到上述技术效果,本发明的技术方案如下:
一种基于提示及环境自动探索的视觉语言导航预训练方法,包括以下步骤:
S1:通过屏蔽标记指令中的视觉和语言导航任务来生成指令模板;
S2:利用CLIP模型识别采样轨迹中的房间和物体,并将描述的短语与它们匹配,通过将匹配的短语填充到指令模板中来构建指令;
S3:将连续的任务特定向量添加到输入指令的嵌入中,并直接调整这些向量的嵌入来完成对视觉、语言导航数据集的预训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210603150.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种辅助覆盖料下料管下料的装置
- 下一篇:一种混凝土叠合板与现浇梁连接构造