[发明专利]一种基于神经网络的通用视频时域对齐方法在审
申请号: | 202110169802.5 | 申请日: | 2021-02-08 |
公开(公告)号: | CN112819743A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 陈弘林;李茹;谢军伟;童同;高钦泉;罗鸣 | 申请(专利权)人: | 福建帝视信息科技有限公司 |
主分类号: | G06T5/50 | 分类号: | G06T5/50;G06T5/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 钱莉;蔡学俊 |
地址: | 350002 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 通用 视频 时域 对齐 方法 | ||
1.一种基于神经网络的通用视频时域对齐方法,其特征在于,包括以下步骤:
采集当前视频所有的原视频图像帧;
将原视频图像帧经由一图像处理神经网络模型处理后得到处理图像帧;
构建可以用于对齐视频图像帧间时域的深度卷积神经网络;
采用所述原视频图像帧及所述处理图像帧作为输入,通过所述深度卷积神经网络,获得输出的时域对齐的视频图像帧;
合成所述输出的时域对齐的视频图像帧,得到最终时域对齐的完整视频。
2.根据权利要求1所述的一种基于神经网络的通用视频时域对齐方法,其特征在于,所述图像处理神经网络模型包括图像增强模型、图像去噪模型、图像去雾模型、图像上色模型。
3.根据权利要求1所述的一种基于神经网络的通用视频时域对齐方法,其特征在于,所述用于对齐视频图像帧间时域的深度卷积神经网络为整合了ConvLSTM卷积长短期记忆单元层的U-Net图像变换网络。
4.根据权利要求3所述的一种基于神经网络的通用视频时域对齐方法,其特征在于,所述U-Net图像变换网络为编码器-解码器架构,包含四次下采样及四次上采样操作,形成一个U型结构;进行第四次下采样操作后,接入一个ConvLSTM卷积长短期记忆单元层,然后再进行上采样操作。
5.根据权利要求3所述的一种基于神经网络的通用视频时域对齐方法,其特征在于,所述ConvLSTM卷积长短期记忆单元层包括遗忘门、输入门、输出门,所述遗忘门根据当前的输入和上一时刻的输出决定哪一部分需要被遗忘;输入门根据当前的输入和上一刻的输出决定哪些信息加入到前一刻的状态中生成新的状态输出门根据最新的状态上一时刻的输出和当前的输入来决定该时刻的输出
6.根据权利要求1所述的一种基于神经网络的通用视频时域对齐方法,其特征在于,所述采用所述原视频图像帧及所述处理图像帧作为输入,通过所述深度卷积神经网络,获得输出的时域对齐的视频图像帧具体为:
当t为第一帧时,设定t-1=t,t-2=t;当t为第二帧时,设定t-1=t;当t为最后一帧时,设定t+1=t;
对于第t原视频图像帧,同时取第t-1原视频图像帧、第t-1处理图像帧、第t原视频图像帧和第t处理图像帧作为输入,通过所述深度卷积神经网络得到初步时域稳定的第t对齐图像帧;计算所述第t处理图像帧及所述第t对齐图像帧的监督学习训练函数;
对于第t-1原视频图像帧,同时取第t-2原视频图像帧、第t-2处理图像帧、第t-1原视频图像帧和第t-1处理图像帧作为输入,通过所述深度卷积神经网络得到初步时域稳定的第t-1对齐图像帧,计算所述第t-1处理图像帧及所述第t-1对齐图像帧的监督学习训练函数;
对于第t+1原视频图像帧,同时取第t原视频图像帧、第t处理图像帧、第t+1原视频图像帧和第t+1处理图像帧作为输入,通过所述深度卷积神经网络得到初步时域稳定的第t+1对齐图像帧,计算所述第t+1处理图像帧及所述第t+1对齐图像帧的监督学习训练函数;
将所述计算得到的第t-1处理图像帧及第t-1对齐图像帧的监督学习训练函数、第t处理图像帧及第t对齐图像帧的监督学习训练函数和第t+1处理图像帧及第t+1对齐图像帧的监督学习训练函数以1:1:1的比例进行相加得到最终用于优化处理第t原视频图像帧的所述深度卷积神经网络的总监督学习训练函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建帝视信息科技有限公司,未经福建帝视信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110169802.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种等静压膜套剥离装置
- 下一篇:一种竖式计算器