[发明专利]一种基于动静态特征融合的视频摘要方法有效
申请号: | 202010815306.8 | 申请日: | 2020-08-12 |
公开(公告)号: | CN111914119B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 刘琚;张昱;刘晓玺;赵雪圻;张杰;鲁昱;顾凌晨 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F16/738 | 分类号: | G06F16/738;G06N3/04;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李健康 |
地址: | 266237 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 静态 特征 融合 视频 摘要 方法 | ||
1.一种基于动静态特征融合的视频摘要方法,旨在提取视频中的重要内容部分,该方法把用于图像分类的卷积神经网络提取的静态特征与用于视频分类的三维深度网络提取的动态特征进行特征融合,然后将融合特征通过双向长短时记忆网络与全连接网络输出视频片段重要性分数,最后通过视频片段选取的过程得到最终的摘要视频,具体步骤包括:
(一)准备视频数据,采集视频数据的视频类型、视频帧率、视频帧数的基本信息;
(二)对步骤(一)所得到的视频数据通过卷积神经网络提取静态特征,首先将视频进行采样,然后将图像输入卷积神经网络,该网络是通过图像分类大型数据集进行预先训练的,最后获得用来表征图像的静态特征;
(三)对步骤(一)所得到的视频数据通过三维深度网络提取动态特征,首先将视频划分为多个视频片段,然后将视频片段依次输入深度网络模型,该网络是通过视频分类数据集进行预先训练的,最终获得用来表征视频片段的动态特征;
(四)为有效利用经过步骤(二)和步骤(三)所得到的静态特征和动态特征,将二者进行特征融合,从而得到视觉信息更为丰富的特征表示,融合方式如下所示:
其中,Vg为步骤(二)提取的静态图像特征,Vp为步骤(三)提取的动态视频特征,Vs代表融合后的动静态特征,代表特征矩阵的连接操作,f表示神经网络层,下标H、W和V则表示不同神经网络层的相关参数集合;
(五)将融合的动静态特征送入双向长短时记忆网络,该网络被用来分析时域上每个视频片段的特征相关性,然后,网络输出通过两个全连接层以及Sigmoid层来完成对每个视频片段的重要性分数预测,重要性分数也就意味着该片段被最终选择为视频摘要的概率,因此分数值处在0到1的范围之间;
(六)利用网络预测所得到的视频片段分数和视频片段的时间分割信息来进行视频片段的选择,片段选择采用的策略旨在控制所选视频片段总时长的同时尽可能的提高所选片段的总分数,最后将选取的视频片段按时间顺序连接后作为最终的视频摘要结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010815306.8/1.html,转载请声明来源钻瓜专利网。