[发明专利]基于深度迁移学习的视频描述方法有效
申请号: | 201810465849.4 | 申请日: | 2018-05-15 |
公开(公告)号: | CN108765383B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 张丽红;曹刘彬 | 申请(专利权)人: | 山西大学 |
主分类号: | G06T7/00 | 分类号: | G06T7/00 |
代理公司: | 太原晋科知识产权代理事务所(特殊普通合伙) 14110 | 代理人: | 任林芳 |
地址: | 030006*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 迁移 学习 视频 描述 方法 | ||
1.一种基于深度迁移学习的视频描述方法,其特征在于:包括以下步骤,
1)通过卷积神经网络视频表示模型,将视频表示为向量形式;
2)利用多示例学习构建图像语义特征检测模型,以提取图像域语义特征;
3)将步骤2)中的图像语义特征检测模型迁移到帧流域中,得到新的语义特征检测模型,以提取帧流语义特征,并实现图像域与帧流域语义特征的深度融合;
4)构建深度迁移学习视频描述框架,生成视频自然语言描述,具体包括以下步骤:
(1)利用卷积神经网络视频表示模型得到给定视频的向量表示v,仅在初始时刻将其输入到递归神经网络的第一层;
(2)在图像数据集上训练图像语义特征检测模型;
(3)将给定的视频帧拆分为单独的图像,依次输入到帧流语义特征检测模型中;
(4)将给定的视频帧视为帧流,并行输入到帧流语义特征检测模型中;
(5)利用帧流语义特征检测模型得到融合语义特征Aiv,并将Aiv输入到递归神经网络的第二层;
(6)将给定视频的英文描述逐词输入到递归神经网络的第一层,结合上述四个步骤中的输入,利用当前时刻以及之前时刻的输入单词去预测下一时刻的输出单词,以此来训练视频描述框架。
2.根据权利要求1所述的基于深度迁移学习的视频描述方法,其特征在于:所述的步骤1)中,采用卷积神经网络模型完成视频表示的任务,对于视频中的一组采样帧,将每一帧均输入到卷积神经网络模型中,提取第二个全连接层的输出,然后在所有的采样帧上执行均值池化,把一段视频表示为一个n维向量。
3.根据权利要求2所述的基于深度迁移学习的视频描述方法,其特征在于:所述的步骤2)中:
具体步骤如下:
对于一个语义特征wa,如果wa存在于图像I的标注文本描述中,那么图像I将被视为一个正包;否则,图像I将被视为一个负包,首先将每个包输入到图像语义特征检测模型中,然后根据包中所有区域的概率来计算包含语义特征wa的包bI的概率,如式(1)所示:
其中,是特征wa的概率,这个概率由区域ri进行预测,通过一个sigmoid层进行计算,该sigmoid层位于全卷积神经网络的最后一个卷积层之后,另外,全卷积神经网络最后一个卷积层的激活函数的维度是x×x×h,h代表包中每个区域的表示维度,因此对于每个包来说,得到x×x维特征图,然后,利用交叉熵损失层对模型进行优化,最后,利用在图像描述数据集上训练得到图像语义特征检测模型,分别对每个单独的采样帧计算关于所有语义特征的概率分布,并且在所有采样帧的特征分布上执行均值池化,得到从图像学习到的语义特征的最终表示。
4.根据权利要求3所述的基于深度迁移学习的视频描述方法,其特征在于:所述的步骤3),图像样本构成的域称为源域,帧流样本构成的域称为目标域,该模型的最终目标是:对于目标域的分布,给定输入x,能够预测语义特征y;
具体如下:
在训练过程中,对于每个输入x,除了要预测语义特征外,还需预测域标签d;若d=0,则x来自源域;若d=1,则x来自目标域,帧流语义特征检测模型可以分解为三个部分,具体工作过程为:首先,通过映射Gf将输入x映射为一个D维特征向量f∈RD,映射的参数向量为θf;然后,通过映射Gy将特征向量f映射为语义特征y,映射的参数向量为θy;最后,通过一个映射Gd将相同的特征向量f映射为域标签d,映射的参数向量为θd。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810465849.4/1.html,转载请声明来源钻瓜专利网。