[发明专利]由目标检测引导的复杂交通视觉显著性预测方法及系统有效
申请号: | 202010895089.8 | 申请日: | 2020-08-31 |
公开(公告)号: | CN112016476B | 公开(公告)日: | 2022-11-01 |
发明(设计)人: | 常发亮;李强;刘春生;李爽;路彦沙 | 申请(专利权)人: | 山东大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李琳 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标 检测 引导 复杂 交通 视觉 显著 预测 方法 系统 | ||
1.一种由目标检测引导的复杂交通视觉显著性预测方法,其特征在于,包括:
提取视频帧图像的空间特征以及包含感兴趣区域的静态目标特征图;
将静态目标特征图与图像特征以硬注意力方式融合,得到注意力融合特征;
将提取的注意力融合特征的动态时序信息和注意力融合特征共同训练预先构建的驾驶员注意力预测网络模型;
对待测视频帧图像采用训练后的驾驶员注意力预测网络模型得到驾驶员注意力区域预测结果;
采用YOLOv3网络的Darknet53层和特征金字塔FPN层提取包含显著性区域的静态目标特征图,具体为:将特征金字塔FPN层的三层输出分别通过3x3的卷积层和3x3的可变形卷积层进行语义特征提取后拼接、融合后,得到掩码,作为静态目标特征图;
具体包括:
提取特征金字塔FPN层的三层输出f1(19x19)、f2(38x38)和f3(76x76);
分别通过一个3x3的卷积convolution和一个3x3的可变形卷积deformableconvolution进行语义特征提取后拼接,得到38*38*896的特征图;
设置卷积层对拼接的特征图进行融合,得到24x16x1的掩码fdet,作为静态输出结果,参与网络训练的反向传播,同时可以加速网络的收敛;
将掩码扩增为24x16x512的特征图,经过注意力融合Attention Fusion模块,以硬注意力方式与骨干网络的输出融合;
掩码fdet特征表示为:
fdet=Γ(Ω(x|θ1)|θ2)
其中,θ1为yolov3网络参数,Ω为提取yolov3特征的映射函数,不参与网络参数的反向传播,θ2为语义提取部分的网络参数,Γ为其输入到特征的映射函数,特征训练的过程为依次前向传播的过程;
所述以硬注意力方式融合包括:其中,⊙表示哈达马积,表示特征图逐点相加,fdet是静态目标特征图,fatt是空间特征,fout是注意力融合特征。
2.如权利要求1所述的由目标检测引导的复杂交通视觉显著性预测方法,其特征在于,所述提取视频帧图像的空间特征包括:对resnet50网络删除conv1、relu1、bn1和maxpooling层,并替换为3x3的卷积层,采用改进后的resnet50作为骨干网络提取视频帧图像的空间特征。
3.如权利要求1所述的由目标检测引导的复杂交通视觉显著性预测方法,其特征在于,采用ConvLSTM网络提取的注意力融合特征的动态时序信息。
4.如权利要求1所述的由目标检测引导的复杂交通视觉显著性预测方法,其特征在于,所述驾驶员注意力预测网络模型采用多个损失函数,包括KL散度和平均平方预测误差MSE。
5.如权利要求1所述的由目标检测引导的复杂交通视觉显著性预测方法,其特征在于,所述驾驶员注意力预测网络模型的解码器包括两个2x2的转置卷积,所述转置卷积依次连接3x3的卷积和激活函数,得到通道数为1的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010895089.8/1.html,转载请声明来源钻瓜专利网。