[发明专利]基于卷积神经网络的视频语义分割方法有效

申请号：	201910420733.3	申请日：	2019-05-20
公开（公告）号：	CN110147763B	公开（公告）日：	2023-02-24
发明（设计）人：	何胜阳;任广辉;樊如愿;熊阿龙;魏俊杰	申请（专利权）人：	哈尔滨工业大学
主分类号：	G06V20/40	分类号：	G06V20/40;G06V10/774;G06T7/11
代理公司：	哈尔滨市松花江专利商标事务所 23109	代理人：	时起磊
地址：	150001 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于卷积神经网络视频语义分割方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于卷积神经网络的视频语义分割方法，其特征在于，包括以下步骤：

步骤一：构建基于注意力机制的W形网络模型，W形网络模型包括两条支路：

一条支路由图像输入经过3次卷积进行下采样得到八分之一原图像精度的特征图；

另外一条支路通过Xception模块或者ResNet模块进行深度下采样，分别得到16倍和32倍下采样特征图，将两个下采样特征图进行通道注意力模型处理后，分别进行2倍、4倍的双线性插值上采样得到两个八分之一原图像精度的特征图；将该支路下的2倍、4倍的双线性插值上采样作为两个子支路，分为记为第2支路和第3支路；

之后所有支路得到的八分之一原图像精度的特征图通过特征拼接、卷积、批标准化、ReLU激活融合后再次通过通道注意力模块得到深层特征；然后经过8倍的双线性插值上采样最终得到与原图像尺寸一致的语义分割结果；

步骤二：在W形网络的基础上，利用光流场算法对帧与帧之间的特征进行传播和融合，过程如下：

采用深度特征流算法，仅在稀疏的关键帧上运行深度卷积网络，并通过光流场将它们的深度特征图传输到其他帧；

将W形网络分成两部分，一个是前端子网络W_low，即W形网络的除去最后一层的前层网络；另一个是末端子网络W_high，即W形网络的最后一层；

在关键帧上运行深度卷积网络，即W形网络，通过输入深层特征，输出语义分割结果；

非关键帧不运行整个深度卷积网络，而是利用当前帧图像和关键帧图像，通过Flownet计算出两帧图像间的光流场信息，然后通过光流场和关键帧提取的特征输入，通过双线性插值输出关键帧传播到当前帧的特征；

步骤三：将选取的数据集中的样本输入到整体网络进行视频语义分割训练和测试，得到训练好的基于卷积神经网络的视频语义分割模型；

利用训练好的基于卷积神经网络的视频语义分割模型进行视频语义分割。

2.根据权利要求1所述的基于卷积神经网络的视频语义分割方法，其特征在于，所述一条支路由图像输入经过3次卷积进行下采样得到八分之一原图像精度的特征图具体过程如下：

图像首先通过conv+bn+relu处理来实现2倍下采样，

然后再通过conv+bn+relu处理实现2倍下采样，得到4倍下采样的特征图；

然后再通过上述操作进行2倍下采样，得到八分之一原图像精度的特征图。

3.根据权利要求1所述的基于卷积神经网络的视频语义分割方法，其特征在于，所述通道注意力模型如下：

输入特征图经过全局池化和1×1卷积之后变成元素数量为通道数的一维向量，接着经过Batch Norm和Sigmoid激活函数输出数值范围为(0,1)的一维向量，一维向量中的元素对输入特征图进行加权后的输出作为通道注意力模块的最终输出结果。

4.根据权利要求1所述的基于卷积神经网络的视频语义分割方法，其特征在于，所述进行视频语义分割训练过程中，具体损失函数式如下所示：

其中l_p(X；W)为主损失函数，X为主支路经过8倍上采样后得到的最后的分割图像，W为原始真实的参考图像；l_i(X_i；W)为辅助损失函数，i为第i条支路，i＝2、3即表示所述的第2支路和第3支路；X_i为第i条支路经过上采样得到的最后的分割图像；α为权重系数；

主损失函数l_p监督整个W形网络模型的输出，两个特殊的辅助损失函数l_i分别监督提取16倍和32倍下采样整体特征信息的网络的输出，借助参数α以平衡主损失函数和辅助损失函数的权重；

网络的输出结果用Softmax表示，主损失函数和辅助损失函数都使用交叉熵损失函数，如下式所示：

其中N为选取的训练样本的总个数，k代表训练时选取的第k个样本，j为数据集的类别数目；p_k表示第k个样本的概率，p_j表示第j类的概率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学，未经哈尔滨工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910420733.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种嵌入式消防误报消除系统
下一篇：一种基于机器学习的静态手势识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于卷积神经网络的视频语义分割方法有效

专利文献下载