[发明专利]一种多类别工程车的行为识别方法及装置有效
申请号: | 202110098578.5 | 申请日: | 2021-01-25 |
公开(公告)号: | CN112800934B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 汪霖;李一荻;曹世闯;汪照阳;胡莎;刘成;陈晓璇;姜博;李艳艳;周延 | 申请(专利权)人: | 西北大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/774;G06V10/762;G06V10/82;G06N3/049;G06N3/084;G06N3/045 |
代理公司: | 西安嘉思特知识产权代理事务所(普通合伙) 61230 | 代理人: | 尹晓雪 |
地址: | 710000 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 类别 工程车 行为 识别 方法 装置 | ||
1.一种多类别工程车的行为识别方法,其特征在于,包括:
获取待识别视频;
其中,待识别视频包含多帧图像,每帧图像包含多个工程车目标;
将所述待识别视频输入训练好的目标检测模型,以使训练好的目标检测模型对所述待识别视频进行识别,输出预测框;
其中,所述预测框中包含所述待识别视频中的工程车目标,工程车目标所在的预测框对应工程车目标的位置坐标以及类别,所述训练好的目标检测模型是通过获取第一训练集,所述第一训练集中包括多个第一样本,每个第一样本中的工程车目标用真实框标注出,将第一训练集进行聚类得到k个先验框,将先验框输入预设的目标检测模型中,以使所述预设的目标检测模型确定与所述真实框交并比最大的先验框,计算预测框与该先验框之间偏移量,输出一个包含目标的预测框,迭代训练所述预设的目标检测模型,直至达到第一训练截止条件;
将所述预测框范围内的图像以连续帧的形式输入训练好的行为识别网络中,以使行为识别网络对所述待识别视频进行关键帧的提取以及工程车目标行为的识别,获得所述待识别视频中工程车目标的行为所属类别;
其中,所述训练好的行为识别网络是通过获取第二训练集,所述第二训练集中包括多个第二样本,每个第二样本包括工程车目标的真实行为类别,将所述第二样本输入预设的行为识别网络中,以使所述预设的行为识别网络中每一层输出的维特征图按照输入图像的时序进行分组,使得每组之间包含的维度特征图个数差距最小,按照组的序号,将每组维度特征图进行移位,将移位后的维度特征图对应的特征向量中空位补0,迭代训练所述预设的行为识别网路,直至达到第二训练截止条件,获得训练好的行为识别网络;
所述训练好的目标检测模型通过如下步骤获得:
步骤1:获取原始图像数据;
步骤2:将所述原始数据划分为训练集,测试集以及验证集;
步骤3:对所述训练集,测试集以及验证集中的工程车目标使用真实框进行标注;
步骤4:对所述训练集使用k-means聚类算法进行聚类,得到k个先验框尺度;
其中,每一个先验框对应先验框信息,所述先验框信息包括先验框的尺度,所述尺度包括宽度以及高度;
步骤5:将所述训练集中的每个样本进行数据增强;
步骤6:将增强后的每个样本分为s×s个格子;
其中,每个格子对应多个先验框,每个格子的每个先验框预测一个置信度以及c个类别概率;
步骤7:将所述先验框信息以及所述物体中心位置坐标输入预设的目标检测模型中,以使所述预设的目标检测模型确定与所述真实框并交比最大的先验框,并基于与所述真实框并交比最大的先验框以及所述物体中心位置所在的格子的置信度,使用反向传播算法调整所述预设的目标检测模型中的参数,计算预测框与先验框之间的偏移量,输出预测框;
步骤8:基于所述预测框与真实框,计算所述预设的目标检测模型的损失函数;
步骤9:重复步骤7至步骤8直至达到第一训练截止条件;
其中,所述第一训练截止条件包括:所述预设的目标检测模型的损失函数值不再变化或者所述损失函数值低于第一阈值;
步骤10:将损失函数达到最小的预设的目标检测模型确定为训练好的目标检测模型;
步骤7包括:将所述先验框信息以及所述物体中心位置坐标输入预设的目标检测模型中,以使所述预设的目标检测模型确定与所述真实框并交比最大的先验框,并基于所述基于与所述真实框并交比最大的先验框以及所述物体中心位置所在的格子的置信度,使用下述公式(1)计算预测框与先验框之前的偏移量,输出预测框;
公式(1)为:
bx=σ(tx)+cx
by=σ(ty)+cy
其中,bx表示预测框的横坐标,by表示预测框的纵坐标,bw表示预设的目标检测模型预测的预测框相对于与真实框交并比最大的先验框的宽偏移量,bh表示预设的目标检测模型预测的预测框相对于与真实框交并比最大的先验框的高偏移量,pw表示当前先验框宽,ph表示当前先验框高;cx和cy表示中心点所处网格左上角坐标,σ(tx)和σ(ty)表示预测框中心点C与中心点所处网格左上角坐标的距离,tw表示所述预设的目标检测模型预测的先验框相对于真实框的宽偏移量,th为所述预设的目标检测模型预测的先验框相对于真实框高偏移量,σ表示Sigmoid函数,作用是将坐标偏移量化到(0,1)区间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110098578.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种表面胶渍清洁处理系统
- 下一篇:一种基于物联网大数据的分析存储平台