[发明专利]一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法有效
申请号: | 201911266940.4 | 申请日: | 2019-12-11 |
公开(公告)号: | CN110933518B | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 赵洲;许亦陈;肖舒文 | 申请(专利权)人: | 浙江大学 |
主分类号: | H04N21/845 | 分类号: | H04N21/845;H04N21/8549 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 卷积 多层 注意力 网络 机制 生成 面向 查询 视频 摘要 方法 | ||
1.一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于包括如下步骤:
1)构建卷积多层注意力网络,所述卷积多层注意力网络包括全卷积神经网络、局部自注意力机制和全局注意力机制;对于输入的视频及查询语句,利用卷积多层注意力网络机制生成查询相关的视频的融合特征表达;
1.1)对于输入的视频,构建视频片段;
1.2)对于步骤1.1)形成的视频片段,首先利用残差神经网络提取视频片段的视觉特征,然后通过全卷积神经网络获取每一个视频片段的镜头级别的视觉特征表达;
1.3)利用步骤1.2)得到的视频片段的镜头级别的视觉特征表达,通过局部自注意力机制,得到每一个视频片段的局部自注意力特征表达;
1.4)利用步骤1.2)得到的视频片段的镜头级别的视觉特征表达,结合输入的查询语句,通过全局注意力机制,得到每一个视频片段的全局注意力特征表达;
步骤1.4)所述的全局注意力机制的计算步骤如下:
1.4.1)根据步骤1.2)获得的视频片段的镜头级别的视觉特征表达和由两个概念(c1,c2)组成的查询语句q,得到查询相关的视频片段级别的视觉特征表达n为视频的片段数;的计算公式如下:
其中,表示第k个视频片段对特定查询的聚合特征表达;vT与W1、W2为可训练的参数矩阵,b为偏置向量,hc为查询的概念表达,为第k个视频片段内第i个元素的视觉特征表达,t为输出特征序列的长度;
1.4.2)计算每一个视频片段的全局注意力特征表达的计算公式如下:
其中,vT与为可训练的参数矩阵,b为偏置向量,为第j个视频片段对特定查询的聚合特征表达,即查询相关的视频片段级别的视觉特征表达中的第j个元素;
1.5)根据步骤1.2)得到的视频片段的镜头级别的视觉特征表达、步骤1.3)得到的视频片段的局部自注意力特征表达和步骤1.4)得到的视频片段的全局注意力特征表达,得到查询相关的视频片段的融合特征表达,进一步生成查询相关的视频的融合特征表达;
2)根据步骤1)得到的查询相关的视频的融合特征表达,结合查询语句的嵌入特征,得到视频镜头的查询相关性得分;根据给定的查询相关性的基本事实注释,对步骤1)构建的卷积多层注意力网络进行训练,固定训练好的参数,得到卷积多层注意力网络模型;
3)将一段待处理的视频构建成视频片段,与查询语句一起输入到卷积多层注意力网络模型中,得到视频镜头的查询相关性得分,将得分最高的视频镜头作为查询相关的视频摘要。
2.如权利要求1所述的利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于,所述的步骤1.2)具体为:
将每一个视频片段输入到预训练的残差神经网络中,得到每个视频片段的视觉特征其vki表示第k个视频片段中第i个镜头的视觉特征,sk代表第k个视频片段内的镜头数;
将中的每一个元素使用一维全卷积神经网络进行编码,并按照如下公式进行空洞卷积处理,得到第k个视频片段中所有镜头的输出:
其中,2k+1为过滤器的尺寸,f为过滤器,d为空洞因子;
通过时间轴上的池化层处理,得到第k个视频片段的镜头级别的视觉特征表达t为输出特征序列的长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911266940.4/1.html,转载请声明来源钻瓜专利网。