[发明专利]基于层级模块化的视频描述方法及系统有效
申请号: | 202210647250.9 | 申请日: | 2022-06-09 |
公开(公告)号: | CN115175006B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 李国荣;叶翰华;齐元凯;王树徽;黄庆明 | 申请(专利权)人: | 中国科学院大学 |
主分类号: | H04N21/84 | 分类号: | H04N21/84 |
代理公司: | 北京康思博达知识产权代理事务所(普通合伙) 11426 | 代理人: | 潘炜 |
地址: | 100049 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 层级 模块化 视频 描述 方法 系统 | ||
1.一种基于层级模块化的视频描述方法,其特征在于,所述方法包括训练阶段和测试阶段,训练阶段包括以下步骤:
步骤1,获得视频中的重要物体特征;
步骤2,根据视频的初始动态特征,结合重要物体特征,获得视频动作表征;
步骤3,获得视频表观特征,结合重要物体特征、视频动作表征,获得全局的视频表征;
步骤4,获得视频最终的描述语句;
步骤1包括以下子步骤:
步骤1-1,获得视频最初始的物体特征;
步骤1-2,选择出重要物体特征;
步骤2包括以下子步骤:
步骤2-1,将视频初始的动态特征和与其相关的重要物体特征进行聚合;
步骤2-2,编码获得视频动作表征;
步骤3包括以下子步骤:
步骤3-1,获得与视频表观特征相关的视频动作特征;
步骤3-2,获得与视频表观特征相关的重要物体特征;
步骤3-3,获得全局的视频表征。
2.根据权利要求1所述的方法,其特征在于,步骤2-1中,采用注意力机制来聚合与视频初始的动态特征相关联的重要物体特征。
3.根据权利要求2所述的方法,其特征在于,通过下式来聚合:
其中,αi,k表示第k个物体ek有关第i个动态特征mi上的权重,表示由动作模块中可学习的参数预测出来的第i个动态特征mi针对第k个物体的权重;wa,Wa,Ua和ba都是可学习的参数,分别表示可学习的投影矩阵、可学习的投影矩阵、可学习的投影矩阵、可学习的偏置参数。
4.根据权利要求1所述的方法,其特征在于,步骤2-2中,采用双向LSTM编码获得视频动作表征。
5.一种视频描述系统,用于实施权利要求1至4之一所述的基于层级模块化的视频描述方法,其特征在于,所述系统包括实体模块、谓语模块和句子模块。
6.根据权利要求5所述的系统,其特征在于,所述实体模块用于获得视频中的重要物体特征,并将其传输至谓语模块和句子模块;
所述谓语模块用于将视频的初始动态特征与重要物体特征结合,获得视频动作表征,并将其传输至句子模块;
所述句子模块用于将视频表观特征、重要物体特征和视频动作表征结合,获得全局的视频表征。
7.根据权利要求6所述的系统,其特征在于,所述视频描述系统还包括第一语言头、第二语言头和第三语言头,以分别将各个模块获得的视频信息与语言语义进行关联。
8.根据权利要求7所述的系统,其特征在于,
所述第一语言头与实体模块连接,用于在实体层面将视频中重要物体的特征与语言语义进行对应;
所述第二语言头与谓语模块连接,用于在谓语层面将视频动作表征与语言语义进行对应;
所述第三语言头与句子模块连接,用于在句子层面将全局视频表征与语言语义进行对应。
9.根据权利要求5所述的系统,其特征在于,所述视频描述系统还包括描述生成器模块,以将实体模块、谓语模块和句子模块三个模块获得的视频表征生成最终的描述语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院大学,未经中国科学院大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210647250.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种超精密自动过滤微量反应溶液装置
- 下一篇:请求处理方法以及装置