[发明专利]基于泰勒解耦和记忆单元校正的视频预测方法在审
申请号: | 202110431011.5 | 申请日: | 2021-04-21 |
公开(公告)号: | CN113132737A | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 姜竹青;潘婷;韩佳男;门爱东;王海婴 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | H04N19/70 | 分类号: | H04N19/70;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 泰勒 记忆 单元 校正 视频 预测 方法 | ||
本发明涉及基于泰勒解耦和记忆单元校正的视频预测方法,属于计算机视觉视频技术领域。针对具有时序相干性的自监督视频预测任务,本发明利用分而治之的思想,将视频帧在高维空间上分解为泰勒分量和残差分量,然后再分别对这两部分进行时序上的推导,最后通过融合这两部分的时序推导信息来预测未来的视频帧。其中泰勒分量只利用第一帧的信息进行时序推导,用来挖掘出复杂的视频序列动态数据中存在的物理规律,并用融合了所有之前的帧信息的记忆单元对时序推导的泰勒分量进行校正,用来模拟视频序列中的额外的变量。残差分量的时序推导用简单的3层ConvLSTM实现。实验结果表明,本发明可以有效的进行长距离的视频预测,并在不同的数据集上也有不错的泛化能力。
技术领域
本发明属于计算机视觉视频技术领域,尤其是一种基于泰勒解耦和记忆单元校正的视频预测方法。
背景技术
预测和推理能力是智能的显著特征之一,也是决策系统的主要目标。人类对世界的常识来自于早期学习和知识积累,大脑通过将预测结果和实际事实相比较,可以提炼出世界的模型,从而在之后的预测中得到更加准确的预测结果。视频预测可以看做是原始视频数据和决策系统的中间步骤,可以从原始视频数据中提炼出潜在的演变模式,在气象、交通、健康科学、异常检测等领域都有广泛的应用前景。
将观测数据转换为决策系统可用的预测模型在科学和工程中都有很重要的意义,虽然目前视频数据的搜集速度越来越快,但从这些原始数据中设计一个自动的预测模型依然是一个很有挑战性的问题。视频预测需要神经网络可以准确学到原始视频数据中存在的混沌动力学,从而可以准确对未来状态进行建模,这个过程是完全数据驱动的。
视频和静态图片不同,视频帧在连续时间维度上有强相关性,存在某些固定的运动或形变模式。在连续的时间步长上,因为时间上的一致性,视频帧中同一位置存在大量视觉相似的局部形变。从全局上看,连续的帧视觉效果不同,但它们在语义上是一致的,一只飞翔的鸟不会在接下来几帧中变成一架飞机,从桌上滚落的小球也不会向上飞。从这些时序线索上,视频预测模型能够提取视频中存在的时间相关性,用这种时间相关性可以对未来可能出现的状态进行建模。
对视频的时间相关性进行建模,常见的方法就是使用ConvLSTM或Conv3D。ConvLSTM是一种用于处理序列数据的神经网络。相比一般的神经网络来说,它拥有记忆单元,能够处理序列变化的数据,使之前的数据都对现在的状态做出一定的贡献。视频由多个连续的视频帧组成,是包含顺序变化的序列数据,本身和ConvLSTM非常契合,过去几年有不少通过改进ConvLSTM来完成视频预测任务的模型都取得了不错的效果。与ConvLSTM类似,Conv3D也是一种三维建模常用的神经网络结构,视频帧序列相比静态图片之外多了时间维度,用Conv3D建模动态变化也非常有效。除了通过提升网络的记忆能力来增加视频预测的准确度,另一种常见的方法是解耦。通过设计具有针对性的网络功能模块,分别对视频中底层动态演变的不同部分进行建模,进一步提升视频预测精度,例如分离前景和背景、内容和动作、时间变量和空间变量、物理变量和残差变量等。除此之外,也可以引入代理对象,例如引入分割图、姿态图等。
单纯通过改进ConvLSTM或Conv3D来进行视频预测往往会导致网络参数很多,而且长距离预测效果不好,引入代理对象的方式又需要额外的信息。因此本发明还是沿用了解耦的思想,但是采用了一种新的解耦方式,将复杂的视频数据解耦为泰勒分量和残差分量,从观测到的复杂动态数据中挖掘出隐藏的泰勒模型,并在推导过程中只使用对第一帧的泰勒展开,避免了长距离预测中的误差累计
发明内容
本发明的目的在于克服现有技术的不足,充分考虑视频帧序列的底层物理逻辑,提出一种基于泰勒解耦和记忆单元校正的视频预测方法。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于泰勒解耦和记忆单元校正的视频预测方法,包括以下步骤:
步骤1、将所有视频帧从像素值范围[0,255]归一化到[0,1];
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110431011.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便携式光转电集成光纤水听器及其测试系统
- 下一篇:一种连接器及连接器组件