[发明专利]基于时空传播层次编解码器的视频预测方法有效
申请号: | 202110534056.5 | 申请日: | 2021-05-17 |
公开(公告)号: | CN113422952B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 李平;张陈翰;王然;徐向华 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | H04N19/107 | 分类号: | H04N19/107;H04N19/30;H04N19/61;G06K9/62;G06V10/40;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱亚冠 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时空 传播 层次 编解码器 视频 预测 方法 | ||
1.基于时空传播层次编解码器的视频预测方法,其特征在于,该方法首先原始视频数据集合,然后进行以下操作:
步骤(1)对每个视频进行采样,获得视频帧序列,并将其输入至低层视觉记忆编码器中,输出对应的低层视觉编码特征和低层记忆状态特征;具体是:
(1-1)对原始视频数据集合每隔d帧进行采样,得到数量为N的视频帧序列d=5~10;其中,表示实数域,Xk表示第k个视频帧,H表示视频帧高度,W表示视频帧宽度,3表示RGB通道数量;
(1-2)构建由一个二维卷积层和一个卷积长短期记忆模块组成的低层视觉记忆编码器,所述的卷积长短期记忆模块是将长短期记忆单元LSTM的全连接操作替换成卷积操作后的模块;
(1-3)将视频帧序列的前M帧输入二维卷积层,M<N-2,1≤t≤M,获得低层初始特征表示H1表示低层初始特征高度,W1表示低层初始特征宽度,C1表示低层初始通道维度;
(1-4)将低层初始特征表示ft输入卷积长短期记忆模块,输出第t帧的低层视觉编码特征和低层记忆状态特征其中,H2=H1<H,表示对应特征高度,W2=W1<W,表示对应特征宽度,C2表示对应通道维度;
步骤(2)将低层视觉编码特征输入至时空传播模块,输出时空编码特征;具体是:
(2-1)构建由三个结构相同但参数不共享的二维卷积层,以及逐元素相乘操作和逐元素相加操作组成的时空传播模块;
(2-2)时空传播模块的输入为第t帧的低层视觉编码特征ht和第t-1帧的时空编码特征拼接得到的拼接时空编码特征[·,·]表示拼接操作,其中z0由随机初始化得到;
(2-3)对拼接时序编码特征进行三次卷积操作,得到时空编码特征即其中,符号表示逐元素相乘,表示逐元素相加,σ(·)表示sigmoid激活函数,Convi(·),i=1,2,3表示结构相同但参数不共享的卷积操作;输出时空编码特征
步骤(3)构建高层语义编码器,输入为时空编码特征,输出高层语义编码特征;
步骤(4)构建层次特征解码器,输入为低层视觉编码特征、低层记忆状态特征和高层语义编码特征,输出预测视频帧;
步骤(5)建立由低层视觉编码器、时空传播模块、高层语义编码器、层次特征解码器组成的视频预测模型,先迭代训练该模型直至收敛,然后将新视频采样后的视频帧序列输入至该模型,得到最终的预测帧序列。
2.如权利要求1所述的基于时空传播层次编解码器的视频预测方法,其特征在于,步骤(3)具体是:
(3-1)构建由一个卷积层和一个卷积长短期记忆模块组成的高层语义编码器;
(3-2)将时空编码特征zt输入卷积层,得到高层初始特征表示H4表示高层初始特征高度,W4表示高层初始特征宽度,其中C4表示高层初始通道维度;
(3-3)将高层初始特征表示f′t输入卷积长短期记忆模块,得到高层语义编码特征并输出。
3.如权利要求2所述的基于时空传播层次编解码器的视频预测方法,其特征在于,步骤(4)具体是:
(4-1)构建由一个卷积长短期记忆模块和两个逆卷积层组成的层次特征解码器,逆卷积层对输入特征图用0填充,再对其进行卷积操作,将因卷积操作缩小的特征图还原至原视频帧尺寸大小;
(4-2)将高层语义编码特征h′t输入第一个逆卷积层,得到扩张特征表示
(4-3)将扩张特征表示qt,以及(1-4)中的低层视觉编码特征ht和低层记忆状态特征ct(4-2)输入卷积长短期记忆模块进行特征混合,输出层次解码特征
(4-4)将层次解码特征h″t输入第二个逆卷积层,得到t+1时刻预测视频帧并输出。
4.如权利要求3所述的基于时空传播层次编解码器的视频预测方法,其特征在于,步骤(5)具体是:
(5-1)构建由低层视觉编码器、时空传播模块、高层语义编码器、层次特征解码器组成的视频预测模型;
(5-2)将视频帧序列的前M+t′帧输入视频预测模型,t′=0,…,(N-M-2),得到预测视频帧q′M+t′+1;将预测视频帧q′M+t′+1与首帧X1融合,获得初始输入张量其中,融合操作表示为Conv(·)表示卷积操作;再次输入视频预测模型,得到M+t′+2时刻的预测视频帧q′M+t′+2;
(5-3)将真实视频帧和预测视频帧之间的损失函数定义为其中||·||1表示L1范数,t″表示视频帧时刻,其取值范围为2≤t″≤N;
(5-4)利用随机梯度下降法优化上述视频预测模型,迭代训练该模型直至收敛,获得优化的预测模型;
(5-5)对于新的视频通过采样得到M个视频帧,并输入上述优化的预测模型,依照(5-2)依次输出指定数量的预测视频帧作为视频预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110534056.5/1.html,转载请声明来源钻瓜专利网。