[发明专利]一种基于特征融合和级联学习的视频内容定位方法有效
申请号: | 201910129460.7 | 申请日: | 2019-02-21 |
公开(公告)号: | CN110020596B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 赵祈杰;单开禹;王勇涛;汤帜 | 申请(专利权)人: | 北京大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08;G10L15/02;G10L15/06 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 融合 级联 学习 视频 内容 定位 方法 | ||
本发明公布了一种基于特征融合的视频内容定位方法,包括视频的特征提取过程、特征融合过程和视频内容定位过程。特征融合包括前融合和后融合;前融合将视频各维度的低层次特征进行级联后通过神经网络进行融合;后融合将神经网络的输出进行拼接,再通过神经网络CF(·)对视频各维度的高层语义特征进行融合。本发明能够解决视频图像和声音中包含的互补的高层语义信息丢失的问题,实现视频内容的精准定位。
技术领域
本发明属于机器视觉及深度学习技术领域,涉及视频内容定位技术,尤其涉及一种使用级联神经网络基于特征前后融合的视频内容定位的方法。
背景技术
在各种各样的视频中,包含着大量的事件和动作等,视频的核心内容在这些事件中。然而视频大多是冗余的,长时间的,观看者需要在大量的冗余信息中寻找有用信息,所以急需一种技术可以自动定位出所需要的内容片段。这种视频内容定位对后续进行内容分析,分类有着很大帮助,在安防,教育,影视领域中都有很大应用空间。
在关于视频内容定位方法的现有技术中,采用神经网络方法,但对于图像、声音等不同维度的信息特征并不进行深度融合,而是对信息特征进行简单拼接以后就作为视频特征表示,作为后级神经网络的输入。例如:用卷积神经网络方法得到视频的RGB图像的特征向量X,如果视频帧长为T,则得到维度为(T,li)的特征向量,其中li为视频内容类别数,例如在ActivityNet数据集中li为200;声音的特征向量为Y,同样也是维度为(T,li)的特征向量。将图像和声音的特征向量级联得其中n是模态总个数。使用特征向量F作为视频最终的特征表示,作为后一级神经网络的输入,进行视频内容定位。
视频图像和视频声音中包含的信息差别很大,而且具有互补效应。比如综艺节目中定位一个歌手的表演片段,由于镜头并不是时时对准歌手,而是会不时指向观众等区域,而歌手的声音可以用来帮助准确识别表演片段的位置。
现有视频内容定位方法中,神经网络的特征提取模块直接将视频图像的特征向量和视频声音的特征向量进行简单拼接作为视频的特征向量,会损失掉图像和声音特征中包含的互补的高层语义信息,大大降低视频内容定位的精确性,难以实现视频内容的精准定位。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于特征融合的视频内容定位方法,基于特征前融合、后融合和级联学习,使用级联的神经网络来进行视频的特征提取、特征融合、内容定位,用以解决视频图像和声音中包含的互补的高层语义信息丢失的问题,实现视频内容的精准定位。
本发明提供的技术方案是:
一种基于特征融合的视频内容定位方法,使用级联的神经网络进行视频的特征提取、特征融合、内容定位;视频包括多个维度的特征,如图像特征、声音特征和光流特征等;特征融合包括前融合和后融合;前融合对视频各个维度的低层次特征进行融合,方法为将各个低层次特征级联后通过神经网络进行融合;后融合网络CF(·)对视频各个维度的高层语义特征进行融合,方法为将神经网络C1,C2,…Ci,的输出进行拼接,再通过神经网络CF(·)进行融合;具体包括如下步骤:
1)提取视频各个模态的低层次特征,如图像特征、声音特征和光流特征等,得到多个二维特征向量;分别记为fi,二维特征向量的相应大小为(T,li),T为视频抽帧帧数;i表示各个模态/维度;
本发明方法输入的是提取出的f1,f2,…fn的大小相同的特征feature。特征提取可采用现有方法。本发明具体实施时,以图像特征和声音特征为例,即模态数为2,采用TSN和VGGish提取视频各个模态的低层次特征。
1.1)预训练视频分类器,作为视频图像特征提取模块M1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910129460.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:指纹图像传感方法
- 下一篇:一种用于头晕/眩晕辅诊的眼部视频处理方法及系统