[发明专利]一种基于自注意力机制的驾驶员动作识别方法在审
申请号: | 202010881916.8 | 申请日: | 2020-08-28 |
公开(公告)号: | CN112016459A | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 张铁荟;李恒宇;何金洋;谢少荣;罗均 | 申请(专利权)人: | 上海大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
代理公司: | 郑州翊博专利代理事务所(普通合伙) 41155 | 代理人: | 涂连梅;周玉青 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 驾驶员 动作 识别 方法 | ||
1.一种基于自注意力机制的驾驶员动作识别方法,其特征在于,包括:
获取记录有目标驾驶员的驾车过程的目标视频;将所述目标视频输入预先训练的深度学习模型,得到所述目标视频中驾驶员的预测动作类型,其中,所述深度学习模型用于表征记录有驾驶员的驾车过程的视频与驾驶员的预测动作类型之间的对应关系。
2.根据权利要求1所述的基于自注意力机制的驾驶员动作识别方法,其特征在于,所述深度学习模型包括特征编码器、全局平均池化层、位置编码层、特征解码器和全连接层;特征编码器用于对输入的目标视频进行特征编码,特征编码器的输出为目标视频的特征图;全局平均池化层用于对特征编码器编码后的特征图进行特征聚合与降维处理,全局平均池化层的输出为降维特征图;位置编码层用于对降维特征图进行位置编码,位置编码层的输出为位置编码特征图;特征解码器用于对位置编码特征图进行特征解码,特征解码器的输出为解码特征图;全连接层用于表征解码特征图与驾驶员的预测动作类型之间的对应关系,全连接层的输出为驾驶员的预测动作类型。
3.根据权利要求2所述的基于自注意力机制的驾驶员动作识别方法,其特征在于,所述特征编码器为MoblieNetV2网络;所述位置编码层为Transformer模型中的位置编码层;所述特征解码器包含6个堆叠的特征解码模块,每个特征解码模块包括依次设置的自注意力层、第一层归一化层、前馈网络层和第二层归一化层,其中,自注意力层与第一层归一化层之间设有残差结构,前馈网络层与第二层归一化层之间设有残差结构;自注意力层的用于计算目标视频中各帧图像之间的自注意力。
4.根据权利要求3所述的基于自注意力机制的驾驶员动作识别方法,其特征在于,所述将所述目标视频输入预先训练的深度学习模型,得到所述目标视频中驾驶员的预测动作类型的具体操作为:
(1)将目标视频输入特征编码器进行特征编码,得到所述目标视频中各帧图像的特征图,然后将各帧图像的特征图按时间顺序进行拼接,得到一个包含时序信息的特征图;
(2)将步骤(1)得到的包含时序信息的特征图输入全局平均池化层进行特征聚合与降维处理,得到降维特征图;
(3)将步骤(2)得到的降维特征图输入位置编码层,位置编码层利用降维特征图的时序信息进行位置编码计算,得到降维特征图中每帧图像的位置编码值,将每帧图像对应的位置编码值合并到降维特征图中,得到位置编码特征图;
(4)将位置编码特征图输入特征解码器,位置编码特征图依次经过特征解码器的6个特征解码模块进行特征解码,得到解码特征图;将解码特征图输入全连接层,得到所述目标视频中驾驶员的预测动作类型;
其中,以第一个特征解码模块为例,第一个特征解码模块对位置编码特征图进行特征解码的具体过程为:
将位置编码特征图输入特征解码模块的自注意力层,自注意力层对位置编码特征图进行自注意力计算,得到自注意力解码特征图;将自注意力解码特征图输入第一层归一化层进行归一化处理,得到第一归一化特征图;将第一归一化特征图输入前馈网络层,前对网络层通过矩阵计算对自注意力解码特征图进行特征解码,然后将经前馈网络层处理后的特征图输入第二层归一化层进行归一化处理,得到第二归一化特征图,第二归一化特征图作为下一个特征解码模块中自注意力层的输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010881916.8/1.html,转载请声明来源钻瓜专利网。