[发明专利]一种基于跨模态注意力机制的双流视频分类方法和装置有效
申请号: | 201910294018.X | 申请日: | 2019-04-12 |
公开(公告)号: | CN110188239B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 迟禄;严慧;田贵宇;穆亚东;陈刚;王成成;黄波;韩峻;糜俊青 | 申请(专利权)人: | 北京大学;南京理工大学;中星技术股份有限公司 |
主分类号: | G06F16/75 | 分类号: | G06F16/75;G06F16/73;G06K9/62;G06N3/04 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 跨模态 注意力 机制 双流 视频 分类 方法 装置 | ||
本发明涉及一种基于跨模态注意力机制的双流视频分类方法和装置。与传统的双流方法不同,本发明在预测结果之前就将两个模态(甚至更多模态)的信息进行了融合,因此能够更加高效充分,同时,由于在较早阶段就进行了信息交互,单个分支在后阶段已经具有了另一分支的重要信息,单分支的精度已经与传统双流方法持平甚至超过,单分支的参数量要比传统双流方法少很多;相比非局部神经网络,本发明设计的注意力模块能够跨模态,而不仅仅只在单模态内部使用注意力机制,本发明提出的方法在两个模态相同的情况下其效果等价于非局部神经网络。
技术领域
本发明涉及一种视频分类的方法,尤其涉及一种使用注意力机制的双流视频分类方法和装置,属于计算机视觉领域。
技术背景
随着深度学习在图像领域的飞速发展,视频领域也逐渐引入深度学习方法并取得了一定成就。但现在的技术水平还远未达到理想效果,面临的问题主要有以下两方面:
第一,当前的技术还未能充分利用动态信息。视频与图像所不同的地方在于,帧与帧之间的动态信息对视频来说是独特而且十分重要的。比如,即使对于人类来说,只看一帧图像是难以判断各种细分类的舞蹈(比如探戈和萨尔萨舞),而如果加入了动作轨迹信息,那么这一任务将会变得容易很多。同样地,在一些体育运动的分类也是依赖于动作轨迹。
第二,当前的技术还很难迅速准确定位到关键物体上。注意力机制在自然语言处理中已经有广泛应用,但在视频分类中的研究还比较缺乏。通过注意力机制,神经网络能够过滤掉无关物体而更加关注关键物体。比如“舞剑”这一类别,如果检测到关键物体“剑”,那么分类就变得简单了。通常情况下,移动物体更能够吸引人类的目光,而该区域也往往蕴含着视频分类的关键信息,比如“做蛋糕”与“做披萨”两类,关键物体“蛋糕”或“披萨”正是位于移动的双手附近。
有很多现有技术在不断尝试解决上述两种问题。关于如何利用动态信息,当前的技术主要有两种:一种是设计与时间维度相关的神经网络结构,比如循环神经网络(RNN)、三维卷积神经网络(3D-Conv)等,通过数据驱动的方式来训练一个能够捕捉到帧与帧之间信息的网络结构;另一种是显式地利用动态信息,即先抽取光流,之后利用这些光流单独训练一个神经网络分支,与RGB分支的结果进行加权求和,这也就是目前使用比较广泛的双流视频分类技术。而关于如何捕捉关键线索,即将注意力机制引入到视频分类中去,其研究相对较少,比较有代表性的便是非局部神经网络(Non-local Neural Networks),但该网络只能关注到单模态内部的重要信息,对于“移动物体”没有特殊的建模方式。
发明内容
本发明主要提出一种新颖的基于跨模态注意力机制的双流视频分类方法,能够高效地利用多模态信息进行视频分类,并且能关注到移动的物体上,使视频分类变得更加简单高效。本发明提出的技术具有通用性,可以广泛用于现有的视频分类问题甚至是其他多模态模型。
本发明具体要解决的技术问题包括:1.充分利用多模态信息进行视频分类;2.更加关注关键物体,使视频分类更加准确;3.使用更少的参数达到更高的精度。
与传统的双流方法不同,本发明在预测结果之前就将两个模态(甚至更多模态,比如提取的声音以及使用物体检测模型提取的中间特征图等)的信息进行了融合,因此能够更加高效充分,同时,由于在较早阶段就进行了信息交互,单个分支在后阶段已经具有了另一分支的重要信息,单分支的精度已经与传统双流方法持平甚至超过,单分支的参数量要比传统双流方法少很多;相比非局部神经网络,本发明设计的注意力模块能够跨模态,而不仅仅只在单模态内部使用注意力机制,本发明提出的方法在两个模态相同的情况下其效果等价于非局部神经网络。
本发明的一种基于跨模态注意力机制的双流视频分类方法,包括以下步骤:
1)建立RGB分支与光流分支的神经网络结构,其中包含跨模态注意力模块;
2)根据待分类视频得到RGB与光流,将其分别输入RGB分支与光流分支的神经网络结构中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;南京理工大学;中星技术股份有限公司,未经北京大学;南京理工大学;中星技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910294018.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智慧公安视频检索系统
- 下一篇:医疗影像数据存储系统