[发明专利]一种基于贝叶斯记忆的层次级联视频目标分割方法有效
申请号: | 202110297438.0 | 申请日: | 2021-03-19 |
公开(公告)号: | CN113139966B | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 李平;李家盛;张宇;徐向华 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06T7/10 | 分类号: | G06T7/10;G06K9/62;G06N3/04;G06N3/08;G06T7/194;G06V10/84 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱亚冠 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 贝叶斯 记忆 层次 级联 视频 目标 分割 方法 | ||
1.一种基于贝叶斯记忆的层次级联视频目标分割方法,其特征在于,该方法首先获取视频数据集合以及像素级标注,然后进行以下操作:
步骤(1)对视频数据进行帧采样,使用残差卷积网络作为特征提取网络,输入视频帧,输出对应的残差特征集合;具体是:
(1-1)对输入视频进行帧采样,结合给出的各帧像素级标记,得到视频帧与掩膜的集合为{(Ft,Mt)|t=1,2,...,T};其中,T表示视频的总时长,Ft表示t时刻的视频帧,表示实数集合,w表示宽、h表示长、通道数为3;Mt表示t时刻视频帧的掩膜,M∈{0,1}w×h×2,其两个通道分别代表背景和前景目标;
(1-2)使用残差卷积网络作为特征提取网络,并去除其最后的全局池化层和全连接层,输入视频帧F,输出残差卷积网络第二至五层的残差特征由此构成残差特征集合其中,上标数n=2,3,4,5表示第n层,256、512、1024和2048表示该层残差特征的通道数;
(1-3)将视频帧{Ft|t=1,2,...,T}依次输入(1-2)中的特征提取网络,输出各视频帧的残差特征集合
步骤(2)构建层次级联网络,输入视频帧对应的残差特征集合,输出对应的层次级联特征集合;具体是:
(2-1)层次级联网络由注意力网络、低层次通道嵌入网络、高层次通道嵌入网络和一个融合卷积层构成;输入连续三层n-1,n,n+1的残差特征其中wk,hk,ck分别为第k层残差特征的宽、长、通道数,k=n-1,n,n+1,n=2,3,4,5,输出第n层的层次级联特征c1为输出的通道数;
(2-2)将特征提取网络得到的第二至五层残差特征Rn与其相邻层残差特征Rn-1和Rn+1一起输入(2-1)中的层次级联网络,n=2,3,4,5,对于第二层残差特征R2,不使用低层次通道嵌入网络,对于第五层残差特征R5不使用高层次通道嵌入网络,输出第二至五层对应的层次级联特征由此构成层次级联特征集合
(2-3)将各视频帧的残差特征集合依次按照步骤(2-1)和(2-2)操作,输出各视频帧的层次级联特征集合
步骤(3)构建基于贝叶斯模型的目标记忆模块,输入视频帧对应的层次级联特征集合,输出其对应的预测粗糙掩膜;
步骤(4)构建掩膜恢复网络,输入视频帧对应的层次级联特征集合和预测粗糙掩膜,输出其对应的预测精细掩膜;
步骤(5)对由特征提取网络、层次级联网络、目标记忆模块和掩膜恢复网络构成的目标分割网络,使用交叉熵损失函数进行优化,获得训练好的目标分割网络;
步骤(6)将新视频序列及首帧掩膜输入已训练好的目标分割网络中,输出视频目标分割的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110297438.0/1.html,转载请声明来源钻瓜专利网。