[发明专利]基于时空传播层次编解码器的视频预测方法有效
申请号: | 202110534056.5 | 申请日: | 2021-05-17 |
公开(公告)号: | CN113422952B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 李平;张陈翰;王然;徐向华 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | H04N19/107 | 分类号: | H04N19/107;H04N19/30;H04N19/61;G06K9/62;G06V10/40;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱亚冠 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时空 传播 层次 编解码器 视频 预测 方法 | ||
本发明公开了基于时空传播层次编解码器的视频预测方法。本发明方法首先对给定的原始视频进行采样获得帧序列并输入至低层视觉记忆编码器,得到低层视觉编码特征和低层记忆状态特征;然后分别利用时空传播模块从低层视觉编码表示中提取时空编码特征,以及通过高层语义编码器提取高层语义特征;再将得到的低层视觉编码特征、低层记忆状态特征和高层语义编码特征通过层次特征解码器进行信息融合,输出预测视频帧。本发明方法不仅能够将低层视觉记忆特征和高层语义特征相融合,并通过时空传播模块使得低层视觉信息沿时序方向传播,还能利用视频首帧的先验知识一定程度上解决视频帧模糊问题,从整体上提高预测视频帧的清晰度和视觉质量。
技术领域
本发明属于计算机视觉领域,尤其是视频感知中的视频预测技术领域,涉及一种基于时空传播层次编解码器的视频预测方法。
背景技术
在互联网+时代,每天都有成千上万的视频在各类终端设备上产生,视频感知受到了学界和业界的广泛关注,而视频预测则是其中一个充满挑战而又具有较高应用价值的视觉任务。该任务其旨在给定部分视频段的情况下,生成后续时刻的视频段。视频预测在雷达气象图预测、交通流预测、机器人物体交互预测、无人驾驶等实际场景有着广泛的应用。例如,在无人驾驶环境中,传统的雷达测距只能对近距离车辆交互情况进行判断,而视频预测能够利用视觉信息对道路上的行人与车辆进行预测,辅助自动驾驶系统的驾驶操作,规避行人车辆,从而保障驾驶员和乘客的安全。视频预测主要遇到的困难包括视频中物体的外观随着时间和拍摄光照发生变化,长期预测造成的图像模糊等等。
传统视频预测方法都是基于神经元模型,研究者们通过改变神经元间的连接方式和权重变化规则获取更好的性能。但这类方法只能应用于简单符号组成的画面,无法对真实视频进行预测。近年来,以神经网络为主要研究对象的深度学习被广泛应用于计算机视觉的各个领域,促使许多研究者开始使用深度学习技术来解决视频预测问题。比如研究者提出采用堆叠多个卷积长短期神经网络(ConvLSTM:Convolutional Long-Short TimeMemory)的方法,以此增强对时间和空间信息的学习能力,从而得到更清晰的预测结果,也有研究者通过往ConvLSTM中增加更多的模块来提高视频预测性能。另外,基于双流的网络架构被广泛地运用到视频预测领域,其主要思想是将视频分为内容和动作两个部分分别进行预测,再将两部分融合得到最终预测视频。同时,为了预测多个未来视频帧,自递归方法被广泛运用到视频预测领域,将网络生成的视频帧作为输入再次送入网络当中,得到下一时刻的视频帧,反复进行如上操作,以此实现多视频帧预测。
上述方法的不足点主要表现在以下几个方面:第一,堆叠多个ConvLSTM的方法没有将学习到的低层视觉特征和高层语义特征很好地融合,没有充分利用学习到的特征,导致预测结果仍然存在模糊的情况;第二,基于双流架构的视频预测方法没有将视频的低层视觉特征在时序上进行有效的传播,导致预测视频中对象轮廓的位置不够准确;第三,自递归方法通过将网络生成的视频帧再次送入网络来实现多视频帧的视频预测,但网络生成的视频帧中存在误差,它们会由于这种形式不断累积,导致在多视频帧预测后期出现模糊的情况。因此,为了缓解不同层次特征融合不够充分、视频对象轮廓位置不够准确以及预测后期出现模糊等问题,迫切需要一种能融合不同层次特征,并提供更准确轮廓位置信息同时能缓解误差累积的方法,从而提高视频预测的准确性。
发明内容
本发明的目的就是针对现有技术的不足,提供基于时空传播层次编解码器的视频预测方法,不仅将低层视觉编码特征与高层语义特征相融合,还能通过时空传播机制对低层视觉信息的时空特性进行刻画,同时利用视频首帧为后续帧的预测提供先验知识,从而获得视觉内容更加清晰的视频预测帧。
本发明方法首先获取原始视频数据集合,然后依次进行如下操作:
步骤(1)对每个视频进行采样,获得视频帧序列,并将其输入至低层视觉记忆编码器中,输出对应的低层视觉编码特征和低层记忆状态特征;
步骤(2)将低层视觉编码特征输入至时空传播模块,输出时空编码特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110534056.5/2.html,转载请声明来源钻瓜专利网。