[发明专利]基于双自注意力机制的监控视频卡车分割方法在审
申请号: | 202011169502.9 | 申请日: | 2020-10-28 |
公开(公告)号: | CN112418227A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 隋凯华;同磊;段娟;肖创柏 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/46;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 监控 视频 卡车 分割 方法 | ||
1.基于双自注意力机制的监控视频卡车分割方法,其特征在于:本方法充分利用特征图的空间信息与通道信息,采用EM算法减少计算量,同时在分割效果上提升性能,实现目标的像素级别分割;具体实现步骤如下:
(1)图像数据获取及标注处理;
(1a)利用监控摄像头SDK,获取采集到的待分割的原始道路场景图像;
(1b)从监控视频中获取原始的道路场景图,采用手工标注方式标注出卡车的位置;
(1c)根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像;
(2)模型构建与训练
训练模型由三部分组成;第一部分采用Resnet101为骨干网络实现特征提取;第二部分是通道自注意力模块,该模块将第一部分得到的特征图reshape成N×C后,与预设的通道基相乘,之后通过softmax层获得通道自注意力图Z1,将Z1与通道基相乘更新特征图;第三部分是空间自注意力模块,该模块分为两个分支,上分支用于计算全局上下文信息,下分支用于计算空间注意力信息;将第一部分得到的特征图输入两个分支,上分支将经由自适应全局平均池化层获得特征图的全局上下文信息,下分支将特征图reshape成N×C后,与预设的空间基相乘,之后通过softmax层获得空间自注意力图Z2,将Z2、通道基和全局上下文信息相乘更新特征图;通道自注意力图与通道基、空间自注意力图与空间基的更新过程中借鉴EM算法的思想,加速自注意力网络的收敛;最后将第一、二、三部分的特征图融合成,输入全连接网络获得最终的分割结果;
训练过程中,将步骤(1)获得的原始图像和语义分割图像输入到网络训练即可;
(3)图像分割结果展示与分割图像显示
运用预测值与真实值进行比对,从而得到分割结果,计算出分割准确率,并将分割图像实时显示。
2.根据权利要求1所述的基于双自注意力机制的监控视频卡车分割方法,其特征在于:原始视频通过监控摄像头的JDK采集,监控数据有两种用途,一种是对数据进行筛选、标注等处理,制作数据集;另一种是将采集的数据输入神经网络,获得语义分割图像。
3.根据权利要求1所述的基于双自注意力机制的监控视频卡车分割方法,其特征在于:数据处理中,将两个数据集中的数据首先标准化,
其次,随机尺寸缩放,缩放比例是0.5,0.75,1.0,1.25,1.5,1.75,2.0中随机任选一个,缩放方式是双线性插值;
再次,填充,数据填充至尺寸大小为513×513,原图用0填充,标签用255填充;
最后,裁剪,将数据尺寸裁剪尺寸为513×513。
4.根据权利要求1所述的基于双自注意力机制的监控视频卡车分割方法,其特征在于:将数据集原始数据和标签输入Resnet101骨干网络进行特征提取,使用预训练的模型提取图像信息;特征图输入通道注意力模块与空间注意力模块,获得通道与空间注意力图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011169502.9/1.html,转载请声明来源钻瓜专利网。