[发明专利]一种基于视觉语言Transformer的端到端视频时空视觉定位系统在审

申请号：	202111100948.0	申请日：	2021-09-18
公开（公告）号：	CN113849668A	公开（公告）日：	2021-12-28
发明（设计）人：	于茜	申请（专利权）人：	北京航空航天大学
主分类号：	G06F16/483	分类号：	G06F16/483
代理公司：	北京慕达星云知识产权代理事务所(特殊普通合伙) 11465	代理人：	符继超
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于视觉语言 transformer 端视时空定位系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于视觉语言Transformer的端到端视频时空视觉定位系统，包括，视觉信息编码模块、文字嵌入模块、时空视觉定位模块和时空轨迹生成模块；视觉信息编码模块和文字嵌入模块与时空视觉定位模块连接；时空视觉定位模块与时空轨迹生成模块连接；视觉信息编码模块将视频模块从视频帧中获取视觉特征；文字嵌入模块从查询文本中提取文本编码；时空视觉定位模块用于学习视觉特征和文本编码间的交互特征，并对检测目标进行空间定位和时间定位，得到检测框信息和时间起始终止信息；时空轨迹生成模块用于生成时空轨迹预测结果；通过本发明能够同时完成时间和空间上的视觉定位可以学习更好的特征表征，以达到更优的定位效果。

技术领域

本发明涉及多媒体技术领域，涉及一种基于视觉语言Transformer的端到端视频时空视觉定位系统。

背景技术

视频时空视觉定位是一种新的，极具挑战的视觉语言任务。给定一个未剪辑的视频，该任务根据要求对检测目标的语言描述，产生一个时空轨迹块(一系列视觉定位框)以定位视频中的检测目标。不同于现存的图像视觉定位任务，时空视觉定位要求在时间和空间上均对检测目标完成定位。另外，如何高效地利用视觉和语言信息完成跨模态学习是准确定位检测目标的关键所在。其中，不同的人在同样的场景中做类似的动作是一种很具挑战的任务场景。

图像/视频中的空间定位是一个与本任务很相关的视觉定位任务。现存的大部分工作会首先使用预训练目标检测器生成一些可能的目标检测候选框。这些方法具有一定的局限：1)空间检测能力受限于目标检测候选框的质量；2)很难使用预训练目标检测器生成关于新的类的检测框；3)预训练的训练代价很大。目前没有视频定位的相关工作试图移除预训练检测器。

此外，考虑视频时空视觉定位任务本身需要对检测目标完成时间和空间两个维度上的定位，因此现存的方法均为二阶段的方法，即首先完成时序视觉定位，划分出检测目标存在的起始和终止时间，在此基础上，对检测目标完成空间视觉定位。但二阶段对方法使得整体框架趋近于两个独立网络完成各自的子任务。

因此，如何提供一种不用预训练目标检测器的前提下，基于端到端视觉语言transfoermeir的系统来完成视频视觉定位任务，是本领域亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于视觉语言Transformer的端到端视频时空视觉定位系统，同时完成时间和空间上的视觉定位可以学习更好的特征表征，以达到更优的定位效果。

为了实现上述目的，本发明采用如下技术方案：

一种基于视觉语言Transformer的端到端视频时空视觉定位系统，包括，视觉信息编码模块、文字嵌入模块、时空视觉定位模块和时空轨迹生成模块；所述视觉信息编码模块和文字嵌入模块与时空视觉定位模块连接；所述时空视觉定位模块与时空轨迹生成模块连接；所述视觉信息编码模块用于从视频帧中获取检测目标的视觉特征；所述文字嵌入模块用于从查询文本中提取检测目标的文本编码；所述时空视觉定位模块用于学习所述视觉特征和所述文本编码间的交互特征，并对检测目标进行空间定位和时间定位，得到检测框信息和时间起始终止信息；所述时空轨迹生成模块用于将生成的检测框信息在时间域和空间域上结合，得到包含检测目标的时空轨迹块。

进一步的，所述时空视觉定位模块包括跨模态特征学习模块和时空分析核心模块；所述跨模态特征学习模块获取文本编码和视觉特征，生成文本引导的视觉特征和视觉引导的文本特征；所述时空分析核心模块将生成文本引导的视觉特征进行时间和空间上的定位。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111100948.0/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于视觉语言Transformer的端到端视频时空视觉定位系统在审

专利文献下载