[发明专利]一种基于轻量级多模态神经网络的行车危险场景辨识方法在审
申请号: | 202111551051.X | 申请日: | 2021-12-17 |
公开(公告)号: | CN114372556A | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 高珍;许靖宁;余荣杰;范鸿飞;孙萍 | 申请(专利权)人: | 同济大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06T3/40;G06T7/90;G06V20/40;G06K9/62;G06V10/774;G06Q10/06 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 陈源源 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 轻量级 多模态 神经网络 行车 危险 场景 辨识 方法 | ||
1.一种基于轻量级多模态神经网络的行车危险场景辨识方法,其特征在于,包括以下步骤:
S1、获取当前时间段内驾驶视频和车载数据;
S2、将驾驶视频的画面划分为上下分布的三个驾驶区域,将视频每一帧画面的每个驾驶区域内的图像在竖直方向上做均值化处理,转化为一行像素,然后将每帧对应的一行像素按时间顺序拼接在一起,形成每个驾驶区域的运动轮廓图;
S3、将每个驾驶区域的运动轮廓图和车载数据输入至行车风险评估模型得到辨识结果;
所述行车风险评估模型为包括视觉数据处理层、运动学数据处理层、数据融合层和预测层的多模态神经网络,其中:所述视觉数据处理层为轻量化CNN网络,在AlexNet基础上进行网络结构轻量化并且引入注意力机制进行改进,用于运动轮廓图输入轻量化CNN网络后输出得到视觉特征;所述运动学数据处理层为LSTM网络,用于车载数据输入LSTM网络后输出得到运动学特征;所述数据融合层为全连接层,用于输入视觉特征和运动学特征后输出得到辨识结果。
2.根据权利要求1所述的一种基于轻量级多模态神经网络的行车危险场景辨识方法,其特征在于,步骤S2中具体包括:
S21、对驾驶视频根据相机机位,按照与本车的远近距离从原视频中划分出三个驾驶区域,每个区域由上边界和下边界划分;
S22、基于当前时间段[ta,tb]内的驾驶视频片段,对步骤S21中得到的每一个驾驶区域进行采样,获取每帧画面中纵向[yl,yu]、横向[0,w]矩形范围内的RGB像素值,其中w为视频宽度,yl为采样下边界,yu为采样上边界;
S23、对矩形范围内图像的R、G、B三个通道,分别进行如下操作:在竖直方向上取像素均值,将(w×(yu-yl))的矩阵压缩成(w×1)的矩阵,接着将三个通道的结果进行叠加,得到每帧的一行(w×3)像素矩阵;
S24、将每帧获得的一行像素矩阵按时间顺序拼接在一起,形成(fps×(tb-ta),w,3)矩阵,按像素矩阵生成彩色的运动轮廓图,其中fps为视频每秒帧数。
3.根据权利要求1所述的一种基于轻量级多模态神经网络的行车危险场景辨识方法,其特征在于,步骤S3中轻量化CNN网络在每一层卷积层之后引入注意力机制模块,对特征图分别进行通道注意力和空间注意力变换,重新构造得到新的特征图,其中通道注意力和空间注意力的计算公式分别如下:
Attentionc=σ(MLP(AvgPool(F))+MLP(MaxPool(F))
Attentions=σ(Conv([AvgPool(F),MaxPool(F)]))
其中,Attentionc,Attentions分别表示通道注意力和空间注意力的结果,F表示某一层卷积层输出的特征图,σ表示Sigmoid函数,MLP表示一个多层感知机网络,Conv表示一个输出通道数为1的卷积层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111551051.X/1.html,转载请声明来源钻瓜专利网。