[发明专利]基于卷积神经网络的视频语义分割方法有效
申请号: | 201910420733.3 | 申请日: | 2019-05-20 |
公开(公告)号: | CN110147763B | 公开(公告)日: | 2023-02-24 |
发明(设计)人: | 何胜阳;任广辉;樊如愿;熊阿龙;魏俊杰 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/774;G06T7/11 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 时起磊 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 神经网络 视频 语义 分割 方法 | ||
基于卷积神经网络的视频语义分割方法,属于自动驾驶技术领域。为了解决现有自动驾驶领域对实时的目标分割处理速度过慢的问题。本发明将卷积神经网络模型应用到视频语义分割中,并采用注意力机制和深度可分离卷积,构建W形网络,并在W形网络的基础上利用帧间相关信息,结合光流场的特征聚合算法,来实现不同帧之间的特征传播,进一步提升视频语义分割的速度,大大降低分割所需要的时间。本发明用于视频语义分割。
技术领域
本发明属于自动驾驶技术领域,具体涉及自动驾驶过程中目标的实时视频语义分割方法。
背景技术
语义分割就是根据每个像素的语义信息进行分割,同一语义的像素被赋予相同的颜色,既能够分割成不同区域,又能识别出其中的内容,而视频语义分割是指对视频中的每一帧都进行上述的语义分割操作。从20世纪70年代开始,美国、英国、德国等发达国家开始进行无人驾驶汽车的研究,中国从20世纪80年代也开始进行无人驾驶汽车的研究,无人车发展到现在在可行性和实用化方面都取得了突破性的进展,其对于汽车行业甚至是交通运输业有着深远的影响。视觉传感器是无人驾驶环境感知最重要的传感器之一,视觉传感器价格低廉,同时可以获取大量信息。利用视觉传感器可以获取图像信息,图像的语义分割是计算机视觉中重要的基本问题之一,其目的是对图像的每个像素点进行分类,将图像分割为若干个视觉上有意义的或感兴趣的区域,以利于后续的图像分析和视觉理解,这将非常适合自动驾驶的场景,在自动驾驶中,语义分割可以用来识别交通标志,车道线和障碍物,所以利用视觉传感器在对驾驶过程中的场景自动地进行理解和语义分割的研究在学术界,工业界都有着十分重要的意义。
通常来说视觉传感器获取图像视频信号的过程对效率的要求非常高,因为视频的数据量非常庞大,假设一秒钟视频有24帧,则一分钟包含1500帧,相当于一个中型数据库,用传统处理图像的方式处理视频并不合适。该研究领域普遍关注的是分割像素级的准确率,并没有考虑实际运用时候的实时性,但是自动驾驶领域,对紧急情况做出及时的处理至关重要。另一方面在视频信息中,帧与帧之间具有很强时间上下文信息,利用帧与帧间的大量相关信息,一方面可以加速模型,另一方面可以提高模型的精度。
发明内容
本发明的目的为了解决现有自动驾驶领域对实时的目标分割处理速度过慢的缺点,而提出一种基于卷积神经网络的视频语义分割方法。
基于卷积神经网络的视频语义分割方法,包括以下步骤:
步骤一:构建基于注意力机制的W形网络模型,W形网络模型包括两条支路:
一条支路由图像输入经过3次卷积进行下采样得到八分之一原图像精度的特征图;
另外一条支路通过Xception模块或者ResNet模块进行深度下采样,分别得到16倍和32倍下采样特征图,将两个下采样特征图进行通道注意力模型处理后,分别进行2倍、4倍的双线性插值上采样得到两个八分之一原图像精度的特征图;将该支路下的2倍、4倍的双线性插值上采样作为两个子支路,分为记为第2支路和第3支路;
之后所有支路得到的八分之一原图像精度的特征图通过特征拼接、卷积、批标准化、ReLU激活融合后再次经过通过通道注意力模块得到深层特征;然后经过8倍的双线性插值上采样最终得到与原图像尺寸一致的语义分割结果;
步骤二:在W形网络的基础上,利用光流场算法对帧与帧之间的特征进行传播和融合;
步骤三:将选取的数据集中的样本输入到整体网络进行视频语义分割训练和测试,得到训练好的基于卷积神经网络的视频语义分割模型;
利用训练好的基于卷积神经网络的视频语义分割模型进行视频语义分割。
进一步地,所述步骤二中在W形网络的基础上,构建光流场算法对帧与帧之间的特征进行传播和融合的过程如下:
采用深度特征流算法,仅在稀疏的关键帧上运行深度卷积网络,并通过光流场将它们的深度特征图传输到其他帧;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910420733.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种嵌入式消防误报消除系统
- 下一篇:一种基于机器学习的静态手势识别方法