[发明专利]基于自优化机制的全卷积视频描述生成方法有效
申请号: | 201910047321.X | 申请日: | 2019-01-18 |
公开(公告)号: | CN111464881B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 张玥杰;房琨城;周练;张涛 | 申请(专利权)人: | 复旦大学 |
主分类号: | H04N21/84 | 分类号: | H04N21/84;H04N21/44;G06N3/04 |
代理公司: | 上海元好知识产权代理有限公司 31323 | 代理人: | 王淼;张妍 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 优化 机制 卷积 视频 描述 生成 方法 | ||
1.一种基于自优化机制的全卷积视频描述生成方法,其特征在于,具体步骤包含:
步骤1、从多媒体数据集中采集所需要的视频数据,得到视频和所标注的视频描述;
步骤2、对视频进行采样,提取视频帧的视觉特征与对应视频描述的语义特征,并分别对视觉特征与语义特征进行处理,得到背后隐藏的视觉特征与背后隐藏的语义特征;
步骤3、采用跨模态相关性分析算法,分析得到背后隐藏的视觉特征和背后隐藏的语义特征的相关性,并将这两种特征映射到同维度下的同构子空间中,构建同一向量空间的特征;
步骤3跨模态相关性分析算法的具体操作过程为,将步骤2中得到的背后隐藏的视觉特征拼成一个视觉特征矩阵将背后隐藏的语义特征拼成一个语义特征矩阵在使用不同层级的特征时,n代表数据集内的n个样本视频或是一个视频内的n个视频帧;
令为视觉特征的空间向量矩阵,为语义特征的空间向量矩阵,通过求取视觉特征的空间向量矩阵和语义特征的空间向量矩阵的最大相关性得到其相应的空间向量矩阵;再通过线性加权方式对视觉特征的空间向量矩阵与语义特征的空间向量矩阵组合后,得到最终的跨模态相关性特征矩阵;
步骤4、使用堆叠的卷积神经网络语义模型,接收词汇表示和经过注意力机制选择的视觉辅助信息,在每个时刻对可能生成的词汇进行排序,并选择概率最大的词汇作为下一个时刻的输入,生成对于视频的自然语言描述;
步骤5、根据堆叠的卷积神经网络语义模型和视频包含的视觉信息,随着层数的堆叠,不断使模型关注不同层级中更为细致的视觉信息,从多个角度解析视觉信息,以实现自优化的注意力机制;
步骤6、根据堆叠的卷积神经网络语义模型和提出的自优化注意力机制,高层的模型使用低层已经学习到的信息,使得高层模型找到更加准确的区域,以实现继承注意力机制;
步骤7、将得到的语义信息和视觉信息,利用置信度矩阵进行标识,并根据置信度矩阵和所提供的视觉信息,得到一种新的加权后的视觉信息;
步骤8、将跨模态相关性特征矩阵输入至堆叠的卷积神经网络语义模型,模型会生成最终的自然语言描述。
2.根据权利要求1所述的基于自优化机制的全卷积视频描述生成方法,其特征在于,所述步骤1对于一段视频通常有多个自然语言描述与之对应,整理出在整个数据集中不常出现或者无用的标注词,整理的步骤如下:
步骤1.1:统计数据集标注中所有单词在数据集中出现的频率;
步骤1.2:过滤掉单词中带有数字的无意义单词;
步骤1.3:对于每个图像标注中在整个数据集出现频率较少的单词,将其认为是图像中次要的信息,并予以删除。
3.根据权利要求1所述的基于自优化机制的全卷积视频描述生成方法,其特征在于,在步骤2进一步包含以下步骤:
步骤2.1、将视频的视觉特征根据每个视频的全局表示和局部表示,区分为两个层级,包含:视频帧全局信息、视频帧帧内区域局部信息;
步骤2.2、根据深度卷积网络的不同层级分为深层表示和浅层表示,深层表示包含更多全局信息,浅层表示包含更多细节信息。
4.根据权利要求3所述的基于自优化机制的全卷积视频描述生成方法,其特征在于,在步骤4中,使用堆叠的卷积神经网络语义模型;
每一层的卷积神经网络根据卷积核的大小接收k个词向量作为输入,并输出包含所有输入信息的向量;随着堆叠层数的增加,高层卷积的输出将包含输入句子的所有信息,并最终生成当前时刻的词汇。
5.根据权利要求4所述的基于自优化机制的全卷积视频描述生成方法,其特征在于,所述步骤5中,对于视频所包含的视觉特征,将其分为视频帧层级和帧内区域层级;其中低层的卷积神经网络语义模型关注视频帧层级信息,在高层的卷积神经网络语义模型关注帧内区域层级信息;
所述视频帧层级的信息关注于时间信息和全局视觉信息,帧内区域层级的信息关注于空间和局部视觉信息;
堆叠的卷积神经网络语义模型的每一层都对前一结果进行优化,随着层数的增加产生更精确的结果,同时也需求更精准的视觉信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910047321.X/1.html,转载请声明来源钻瓜专利网。