[发明专利]基于改进YOLOv3模型的行人多目标跟踪视频识别方法在审
申请号: | 202110151278.9 | 申请日: | 2021-02-03 |
公开(公告)号: | CN112836639A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 张相胜;沈庆;姚猛 | 申请(专利权)人: | 江南大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/46;G06K9/62;G06N3/04;G06N3/08;G06T7/246;G06T7/277 |
代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 林娟 |
地址: | 214000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 yolov3 模型 行人 多目标 跟踪 视频 识别 方法 | ||
1.基于改进YOLOv3模型的行人多目标跟踪视频识别方法,其特征在于,步骤如下:
步骤1:行人检测部分:改进YOLOv3目标检测网络,引入深度可分离卷积模块,利用深度可分离卷积模块替换Darknet-53特征提取层中的标准卷积模块;引入SENet模块,将SENet模块添加到YOLO预测层中;
步骤2:从公有数据集中选出含有行人图像的数据集,使用K-means++聚类算法替换K-means聚类算法对数据集标签进行聚类分析,训练行人检测YOLOv3网络模型;
步骤3:多目标跟踪部分:使用训练好的行人检测YOLOv3网络模型进行目标检测,与Deep-SORT算法相结合,进行行人多目标跟踪。
2.根据权利要求1所述的基于改进YOLOv3模型的行人多目标跟踪视频识别方法,其特征在于,所述步骤1进一步具体为:
步骤1.1:Darknet-53特征提取层中引入深度可分离卷积模块,并利用深度可分离卷积模块替换原有Darknet-53中的标准卷积模块;深度可分离卷积是把通道和空间区域分开考虑,将标准卷积分解成深度卷积和逐点卷积,即首先使用深度卷积对特征图中3个单通道分别进行3*3卷积,收集每个通道的特征,再使用逐点卷积对经过深度卷积后的特征图进行1*1的逐点卷积,收集每个点的特征;
步骤1.2:在YOLO预测层中引入SENet模块,分别在网络第26、43、53层输出向量后嵌入SENet模块。
3.根据权利要求1或2所述的基于改进YOLOv3模型的行人多目标跟踪视频识别方法,其特征在于,所述步骤2具体为:
步骤2.1:从公有数据集中分别提取其中的行人照片N张,并使用labeling工具为图片打标签;而后将图片按比例分为训练集和测试集;
步骤2.2:对图片训练集的样本使用K-means++聚类算法替代K-means聚类算法进行先验框聚类,获得新的锚框,并利用新的锚框进行行人检测YOLOv3网络模型的迭代训练。
4.根据权利要求1或2所述的基于改进YOLOv3模型的行人多目标跟踪视频识别方法,其特征在于,多目标跟踪之前需要利用训练好的行人检测YOLOv3网络模型来检测目标,具体为:
把任意大小图像的连续帧输入到训练好的行人检测YOLOv3网络模型中,首先对输入的图片自适应调整,在每个网格内预测B个边界框,对C类目标进行检测,输出每类目标的边界框和边界框的置信度;边界框的置信度定义为:边界框与该对象实际边界框交并比IOU,与该边界框内存在对象的概率乘积,计算公式:
其中,Confidence为边界框的置信度,Pr(Object)为该边界框内存在对象的概率,为边界框与该对象实际边界框交并比;
通过设定阈值,将类别置信度低于阈值的边界框排除,随后边界框采用NMS方法进行筛选,得到的边界框的5个参数为(x,y,w,h,pc),其中(x,y)为目标中心相对于单元格左上角的相对坐标,(w,h)分别是目标与整张图像的宽和高,pc代表目标类别的概率值,经过归一化处理以后,最终网络输出为S×S×(5×B+C)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110151278.9/1.html,转载请声明来源钻瓜专利网。