[发明专利]基于深度混合编解码神经网络的驾驶员行为识别方法有效
申请号: | 202010425736.9 | 申请日: | 2020-05-19 |
公开(公告)号: | CN111695435B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 路小波;胡耀聪;陆明琦 | 申请(专利权)人: | 东南大学 |
主分类号: | G06V20/59 | 分类号: | G06V20/59;G06V10/764;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 叶涓涓 |
地址: | 211189 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 混合 解码 神经网络 驾驶员 行为 识别 方法 | ||
1.基于深度混合编解码神经网络的驾驶员行为识别方法,其特征在于,包括如下步骤:
步骤1:建立驾驶员行为识别数据集
驾驶员行为识别数据集包含录制的驾驶员驾驶视频,驾驶视频包含若干种不同的驾驶行为类别,驾驶视频划分为训练集和测试集;
步骤2:构建编解码时空卷积网络
编解码时空卷积网络包括3D编码部分和3D解码部分,3D编码网络和3D解码网络采用跳跃连接方式连接;
所述3D编码网络由多个3D卷积层堆叠组成,每个3D卷积层都使用3×3×3尺寸的卷积核对输入进行下采样,学习短期行为时空特征表示,编码运算过程Encoder(·|)具体表示为:
Fk=Encoder(Ik|θen) (1)
其中Ik表示输入的第k个剪辑,θen表示3D编码网络的相关参数,Fk表示编码后的第k个短期行为时空特征表示;
所述3D解码网络由多个3D反卷积层堆叠组成,通过3×3×3的卷积核对编码的行为特征进行上采样,并最终输出光流预测值解码运算过程Decoder(·|)具体表示为:
其中表示第k个光流预测值,θen表示3D编码网络的相关参数,θde表示3D解码网络的相关参数;
编解码时空卷积网络能够实现短期剪辑的驾驶员行为分类;3D卷积层3DConv(·|)对编码时空特征Fk继续进行下采样,全局平均池化层GAP(·|)对特征进行均值池化,而softmax层softmax(·|)输出行为分类结果,该过程具体表示为:
Xk=3DConv(Fk|θ3dc) (3)
其中Xk表示3D卷积层的输出特征图,表示特征图的全局平均池化结果,θ3dc和θst表示3D卷积层和softmax层的相关参数,表示分类得分;
编解码时空卷积网络的损失函数包含3部分:
(1)编解码时空卷积网络对短期视频剪辑中的驾驶员行为进行分类,交叉损失熵函数优化softmax分类器,具体表示为:
其中1(·)表示指示函数,如果括号内的表达式为真则取值1,反之取值0;yj和分别表示真实类别标签和预测类别标签;
(2)编解码时空卷积网络采用回归逼近输入O和输出之间的距离,具体表示为:
其中O和分别表示光流真实值和光流预测值,二范数距离用于对光流损失进行优化;
(3)编解码时空卷积网络采用回归对运动信息的损失进行优化,能够将真实光流和预测光流送入双流网络的时间流网络,并计算激活值的偏差,具体表示为:
其中φ(·)表示双流网络中时间流网络的输出特征图,二范数距离用于对运动信息损失进行优化;
编解码时空卷积网络的最终损失为不同学习任务的损失加权组合,最终的损失函数表示为:
L=λclsLcls+λflowLflow+λmotionLmotion (9)
其中λcls,λflow和λmotion分别表示编解码时空卷积网络中不同损失的权重参数;
步骤3:构建卷积长短期记忆网络
卷积长短期记忆网络用于对长视频中的多个短期行为特征进行时空融合,获取长期驾驶员行为特征表示;卷积长短期记忆网络将卷积操作引入长短期记忆单元LSTM中,LSTM单元包括一个记忆胞元和三个控制门,三个控制门为:输入门,遗忘门和输出门;输入门ik能够调制LSTM单元的输入zk,记忆单元ck记录了当前的记忆状态,输出Hk由遗忘门fk和输出门ok共同决定;卷积长短期记忆网络运算过程具体表示为:
ik=σ(Wi*Fk+Ri*Hk-1+bi) (10)
fk=σ(Wf*Fk+Rf*Hk-1+bf) (11)
ok=σ(Wo*Fk+Ro*Hk-1+bo) (12)
zk=tanh(Wz*Fk+Rz*Hk-1+bz) (13)
其中W表示当前状态输入的权重矩阵,R表示上一个状态输出的权重矩阵,b表示阈值项,σ为sigmoid函数,tanh为双正切函数,表示元素内积,*表示卷积操作;
步骤4:构建分类网络
分类网络首先对长期驾驶员行为特征表示H进行时间池化TPooling(·|)和空间金字塔池化SPPPooling(·),接着通过全连接层FC(·)和softmax分类器softmax(·)实现长视频的驾驶员行为识别,其运算过程具体表示为:
f=FC(SPPPooling(TPooling(H|θfc))) (16)
Plt=softmax(f|θlt) (17)
其中θfc和θlt分别表示全连接层和softmax层的相关参数,Plt表示分类得分;
步骤5:训练驾驶员行为识别模型
步骤501:训练编解码时空卷积神经网络,提取驾驶员行为的短期时空特征;
步骤502:将短期时空特征作为输入训练卷积长短期记忆网络和分类网络,识别长视频的驾驶员行为;
步骤6:采用训练好的驾驶员行为识别模型对数据集中的视频进行识别
对于一段视频,首先等时间间隔的采样K个短期剪辑,每个剪辑包含L帧,则采样后得到的剪辑样本为I={I1,I2,...,IK},将该样本送入训练好的编解码时空卷积网路中得到短期行为时空特征表示F={F1,F2...,FK},将短期行为时空特征表示送入训练好的卷积长短期记忆网络中得到长期行为时空特征表示H,训练好的分类网络输出最终的驾驶员行为分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010425736.9/1.html,转载请声明来源钻瓜专利网。