[发明专利]基于时序-空间图的跨模态视频时序动作定位方法及系统有效
申请号: | 202111557734.6 | 申请日: | 2021-12-20 |
公开(公告)号: | CN113963304B | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 刘萌;齐孟津;田传发;周迪;郭杰;马玉玲;刘新锋 | 申请(专利权)人: | 山东建筑大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;H04N13/327;H04N13/161 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 赵妍 |
地址: | 250101 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时序 空间 跨模态 视频 动作 定位 方法 系统 | ||
本发明属于数据表示技术领域,提供了基于时序‑空间图的跨模态视频时序动作定位方法及系统,包括:接收视频数据和自然语言查询信息;基于自然语言查询信息确定自然语言查询特征表示;基于视频数据确定候选视频时序动作片段特征表示;基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示,预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性;通过对相关性得分最高的候选视频时序动作片段进行偏移量矫正,得到最终目标视频时序动作片段定位结果。本发明上述两种特征表示预测对应候选视频时序动作片段的时序偏移量和相关性分数,大幅度提高视频时序动作定位的准确度。
技术领域
本发明属于数据表示技术领域,具体涉及一种基于时序-空间图的跨模态视频时序动作定位方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
互联网技术的飞速发展和影像采集设备的日益普及,致使视频数量呈指数级增长,并且成为当今社会的一种主流媒体形式。面对如此大规模的视频数据,视频时序动作定位已成为视频分析领域的一个热点研究问题,其旨在从给定视频中定位出所有动作的起始和终止时刻,同时对这些动作的类别进行预测。但是,目前的视频时序动作定位方法只能检测和识别预定义集合内的简单动作,如:跑步、跳高和打篮球。随着真实世界中视频所包含的场景越来越复杂,以及其所涉及的对象、属性和行为交互信息越来越多,固定的动作集合无法覆盖真实世界中全部的动作行为。而利用自然语言可以更加灵活地描述视频中的动作行为,且清晰地表达人们定位包含复杂动作行为视频片段的需求。例如:通过“穿红色衣服戴黑色帽子的人第一次从摄像头下跑过”这样一个复杂的自然语言描述查询,从监控视频流中搜索出对应的视频片段,来辅助人员追踪。因此,研究跨模态视频时序动作定位——智能且高效地从视频中定位出符合复杂自然语言描述的动作片段,是非常必要的,其具有广泛的应用领域,包括但不局限于自动驾驶、机器人导航和监控安防等。
近几年,针对跨模态视频时序动作定位,虽然一些深度学习方法被提出且取得不错的效果,但是仍存在以下几个方面问题:
第一,复杂自然语言查询语句理解与表示方面。用于定位目标时序动作片段的自然语言描述一般较长,可同时蕴含多个实体不同动作行为的描述。现有方法大多采用整体编码形式,对其进行语义理解,导致无法精准捕获查询中细节性的关键信息。与此同时,自然语言描述中有些词语具有一词多义的特点,即词语受其所处上下文语境的影响具有截然不同的含义。
第二,时序动作片段候选集生成与表示方面。现有跨模态视频时序动作定位工作,大多采用滑动窗口、锚点多尺度采样等方式生成时序动作片段候选集,致使候选时序动作片段长度单一且与目标时序动作片段间覆盖率较低,故最终定位结果精度较低。此外,现有方法在对视频片段进行表示时,大多采用全局表示的方式(如,C3D或者I3D),忽略了帧内或者帧间物体的交互信息,导致对视频内容理解不够深入,继而影响目标时序动作片段的定位精度。
发明内容
为了解决上述问题,本发明提出了一种基于时序-空间图的跨模态视频时序动作定位方法及系统,其一方面,基于语义角色树对自然语言查询描述进行理解,得到语义精准的文本表示;另一方面,同时引入时序图和空间图网络,来建模不同物体时序和空间上的关联关系,以增强视频时序动作片段表示。最后,将文本和视频时序动作片段表示提供给相关性分数预测以及定位回归模型,来预测相关性分数和对应时序动作片段的时序偏移量。
根据一些实施例,本发明的第一方案提供了一种基于时序-空间图的跨模态视频时序动作定位方法及系统,采用如下技术方案:
基于时序-空间图的跨模态视频时序动作定位方法,包括:
接收视频数据和自然语言查询信息;
基于自然语言查询信息确定自然语言查询特征表示;
基于视频数据确定候选视频时序动作片段特征表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东建筑大学,未经山东建筑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111557734.6/2.html,转载请声明来源钻瓜专利网。