[发明专利]一种基于生成对抗网络的视频目标分割方法有效
申请号: | 201911045144.8 | 申请日: | 2019-10-30 |
公开(公告)号: | CN110942463B | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 李平;张宇;徐向华;王然 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06T7/10 | 分类号: | G06T7/10 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨舟涛 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 网络 视频 目标 分割 方法 | ||
1.一种基于生成对抗网络的视频目标分割方法,其特征在于,该方法首先获取视频数据集,然后进行如下操作:
步骤(1).利用输入视频中首帧以及相邻帧与当前帧的关系,构建视频生成网络模型,经过全卷积神经网络及反卷积上采样,获得生成网络视频分割矩阵;具体方法是:
(1-1).假设输入视频有m帧RGB图像,表示为帧图像集合其中首帧指视频中的第一帧图像F1,每帧图像宽为w,高为h,通道数为3;
(1-2).标注像素级,记为标注集合{Mi|i=1,..,m},其中是宽为w高为h的矩阵,像素级标注Mi的元素取值为{0,1,...,k},k为视频待分割的目标数量,在训练阶段每个视频帧都有对应的像素级标注,处理新视频时仅给出视频首帧的目标标注;
(1-3).处理视频首帧:将首帧F1与对应标注M1输入到全卷积神经网络得到相应的特征表示张量,全卷积神经网络输出的特征表示张量表示为c1为通道数,w1为张量的宽,h1为张量的高,且w1<w、h1<h,得到的首帧对应的特征表示张量记为S1;所述的全卷积神经网络为不包含全连接层且以卷积层为主的神经网络;
(1-4).处理视频后续帧:从视频第二帧起至视频最后一帧记为首先将视频帧Fi和前一帧对应的像素级标注Mi-1输入相同全卷积神经网络,得到相应的特征表示张量,记为然后将后续帧Fi对应的特征表示张量Si与首帧对应的特征表示张量S1依次拼接,得到拼接特征表示张量,记为经过多个反卷积层的上采样操作,得到大小与视频帧一致的生成网络视频分割矩阵,记为即产生m-1个目标分割结果;
步骤(2).利用视频帧及其生成网络视频分割矩阵,构建判别网络模型,获得判别矩阵;
步骤(3).采取对抗式学习策略交替优化判别网络与生成网络,使得生成网络尽可能生成与真实分割矩阵一致的视频分割矩阵;
所述的对抗式学习策略为生成网络和判别网络的优化目标相互冲突并在对抗过程中优化,所述的交替优化指使用随机梯度下降法先优化判别网络再优化生成网络,依次交替优化损失函数;
步骤(4).将新视频输入已训练优化的生成网络模型,获得对应的生成网络视频分割矩阵,即视频目标分割结果。
2.如权利要求1所述的一种基于生成对抗网络的视频目标分割方法,其特征在于步骤(2)的具体方法是:
(2-1).将视频帧Fi及其生成网络的视频分割矩阵Pi,i=2,...,m,输入到判别网络,该判别网络是由C个卷积层、归一化层和激活函数组成的模块构成的卷积神经网络,C≥3;
(2-2).判别网络将输出N×N的判别矩阵Ai,矩阵元素为0或1,N<w,N<h,将视频帧Fi与真实视频目标标注Mi输入到判别网络得到相同大小的判别矩阵Ai′,判别矩阵Ai′作为真实的判别矩阵且每个元素对应视频帧的小块区域,判别矩阵Ai每个矩阵元素应与判别矩阵Ai′每个矩阵元素尽可能相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911045144.8/1.html,转载请声明来源钻瓜专利网。