[发明专利]一种基于深度学习的单张图片的运动估计系统及方法在审
申请号: | 202110672305.7 | 申请日: | 2021-06-17 |
公开(公告)号: | CN113538505A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 颜成钢;陈泉;许成浩;孙垚棋;张继勇;李宗鹏 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06T7/207 | 分类号: | G06T7/207;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 单张 图片 运动 估计 系统 方法 | ||
1.一种基于深度学习的单张图像的运动估计方法,其特征在于,步骤如下:
步骤(1)、构建数据集;
拍摄具有运动状态的物体的视频集,制作相同时间戳的前后两帧的运动图片对,构建数据集;
步骤(2)、构建场景信息提取网络,并通过数据集进行训练,用于提取输入图片场景信息SE;
步骤(3)、构建运动信息估计网络,并通过数据集进行训练,用于提取并估计输入图片运动信息ME;
步骤(4)、构建信息融合网络,并通过数据集进行训练,用于融合场景信息和运动信息估计结果,得到具有运动估计效果的输出图片;
步骤(5)、将需要进行运动估计的真实图片分别输入训练好的场景信息提取网络和运动信息估计网络,得到输入图片的场景信息SE和运动信息估计结果ME,然后通过训练好的信息融合网络对场景信息SE和运动信息估计结果ME进行融合,得到具有运动估计效果的输出图片。
2.根据权利要求1所述的一种基于深度学习的单张图像的运动估计方法,其特征在于,步骤(1)具体方法如下;
1-1:数据收集,拍摄具有运动状态的物体的视频集;拍摄视频数据时将相机位置固定,确保相机位置和相机参数在拍摄同一段视频时不发生改变,即连续拍摄的一段视频只有画面中运动物体的运动状态改变,无其他变量;
1-2:数据集制作,制作相同时间戳的前后两帧的运动图片对;将拍摄的视频按帧分离,在每段视频中挑选具有明显运动状态改变的物体的连续两帧图片作为一组图片,即每组图片的第一帧图片(IT)作为初始图片,第二帧图片(IT+1)作为基于第一帧图片产生相对运动的图片;其中数据集中的第一帧图片(IT)作为模型训练过程的输入数据,数据集中的具有相对运动的第二帧图片(IT+1)作为模型训练过程中的用于与模型输出图片进行对比的对比图片。
3.根据权利要求2所述的一种基于深度学习的单张图像的运动估计方法,其特征在于,步骤(2)具体方法如下;
2-1:建立场景信息提取任务的理论模型;场景信息指同一对图片中不发生运动状态改变的内容信息,即第一帧图片(IT)和第二帧图片(T+1)具有相同像素分布的内容信息;场景信息提取任务的理论模型用公式表示为:
SE=Ψ(IT)
其中Ψ表示场景信息提取函数,IT表示数据集中每组图片的第一帧图片;
2-2:构建场景信息提取网络,用于提取输入图片场景信息;场景信息提取网络由卷积层,最大池化层,正则化层和ReLU非线性激活函数构成;将数据集中的第一帧图片(IT)和第二帧图片(IT+1)分别作为输入图片送到场景信息提取网络中,并采用L1损失函数进行监督,实现L1(Ψ(IT)-Ψ(IT+1))→0,即使得输入的第一帧图片(IT)和第二帧图片(IT+1)经过场景信息提取网络,得到近似相同的输出结果,即场景信息SE,场景信息提取网络经过训练具有提取输入图片场景信息的效果后,保持场景信息提取网络的权重不再发生任何改变。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110672305.7/1.html,转载请声明来源钻瓜专利网。