[发明专利]基于层级模块化的视频描述方法及系统有效

专利信息
申请号: 202210647250.9 申请日: 2022-06-09
公开(公告)号: CN115175006B 公开(公告)日: 2023-07-07
发明(设计)人: 李国荣;叶翰华;齐元凯;王树徽;黄庆明 申请(专利权)人: 中国科学院大学
主分类号: H04N21/84 分类号: H04N21/84
代理公司: 北京康思博达知识产权代理事务所(普通合伙) 11426 代理人: 潘炜
地址: 100049 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 层级 模块化 视频 描述 方法 系统
【说明书】:

发明公开了一种基于层级模块化的视频描述方法,所述方法包括以下步骤:步骤1,获得视频中的重要物体特征;步骤2,根据视频的初始动态特征,结合重要物体特征,获得视频动作表征;步骤3,获得视频表观特征,结合重要物体特征、视频动作表征,获得全局的视频表征;步骤4,获得视频最终的描述语句。本发明公开的基于层级模块化的视频描述方法和系统,能够充分利用视频信息和语言语义之间的对应关系,兼顾整体语义和细节语义的对应,显著提高对视频任务描述精确度。

技术领域

本发明涉及视频描述技术领域,具体涉及基于层级模块化的视频描述方法及系统。

背景技术

视频内容描述(video captioning)是将视频内容转换成自然语言的任务,该项任务有多个应用场景,例如:帮助盲人、人机交互、视频检索等。尽管近年来该领域的研究工作已经有了令人瞩目的进展,但这依旧是一项极富挑战性的任务。

现有技术中,Kojima等人和Krishnamoorthy等人提出了一种基于模板的的视频描述方法。在这一类方法中,模型先生成描述物体和动作的词,再将生成的词汇填入给定的语句模板来生成描述语句。但是,这种基于模板的方法缺乏灵活性。近年来,研究者们为卷积神经网络(CNN)和循环神经网络(RNN)所启发,提出来使用编码器-解码器(encoder-decoder)的范式来完成该任务。例如,Venugopalan等人通过取多个视频帧的平均池化来获取视频表征,之后采用了一个长短期记忆网络(LSTM)来生成描述语句;Yao等人设计了一个基于视频时序信息的注意力机制来将语句生成器生成的词汇和不同时刻的视频帧对应起来,从而对整个视频的时序结构进行建模;Hori等人和Xu等人则利用了音频特征来增强视频表征;Chen等人提出了PickNet来选取信息量大的帧,从而消除了视频中冗余的信息。在近期,研究者们开始利用更加细粒度的物体信息来增强视频表征。

在视频描述任务中,学习视频表征是非常重要的。从学习视频表征的视角来看,现有的方法可以大致分为两个类别:(1)着重设计复杂的视频表征编码器来学习更加有辨识力的视频表征;(2)着重利用视频和语言之间的对应关系来帮助编码器编码出富含语言语义的特征。对于第(1)类,尽管这些设计精巧的视频表征编码器的确能够通过提供更加有辨识力的视频特征来提升模型的性能,但是,在训练的时候仅被标注语句逐字监督,导致它们没能充分地利用到视频信息和语言语义之间的对应关系。在第(2)类中,有的方法在词的层面上将视频信息和句子中的词汇联系在一起;有的方法在全局和整体层面上将整个视频内容和整句语义联系在一起。然而,它们有些是只关注到了局部词汇上的对应关系,忽略了整体语义的对应;有些是只关注到了全局内容上的对应关系,而忽略了细节上的语义对应。

因此,亟需提供一种新的视频描述方法,以解决上述问题。

发明内容

为了克服上述问题,本发明人进行了锐意研究,设计出一种基于层级模块化的视频描述方法,在实体层面上挑选出视频里相对重要的一些物体,在谓语层面上,学习出视频中依赖于物体的视频动作特征信息;在句子层面上,学习并整合出视频的全局表征,能够充分利用视频信息和语言语义之间的对应关系,兼顾整体语义和细节语义的对应,显著提高对视频任务描述精确度,从而完成了本发明。

具体来说,本发明的目的在于提供以下方面:

第一方面,提供一种基于层级模块化的视频描述方法,所述方法包括训练阶段和测试阶段,训练阶段包括以下步骤:

步骤1,获得视频中的重要物体特征;

步骤2,根据视频的初始动态特征,结合重要物体特征,获得视频动作表征;

步骤3,获得视频表观特征,结合重要物体特征、视频动作表征,获得全局的视频表征;

步骤4,获得视频最终的描述语句。

第二方面,提供一种视频描述系统,优选用于实施第一方面所述的基于层级模块化的视频描述方法,所述系统包括实体模块、谓语模块和句子模块。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院大学,未经中国科学院大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210647250.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top