[发明专利]基于YOLOv3和词袋模型的行为识别方法有效
申请号: | 202110044439.4 | 申请日: | 2021-01-13 |
公开(公告)号: | CN112784722B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 宋琳;赵君喜;单义冬 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V20/40;G06V10/46;G06K9/62;G06V10/762;G06V10/80 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 王素琴 |
地址: | 210012 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 yolov3 模型 行为 识别 方法 | ||
1.基于YOLOv3和词袋模型的行为识别方法,其特征在于:所述方法包括如下步骤:
步骤1:读取视频帧,用YOLOv3网络进行目标检测,返回目标的位置信息;
步骤2:截取目标区域、生成动作序列;
步骤3:对动作序列中的序列帧进行预处理,然后分别提取多尺度HOG特征和SIFT特征;
步骤4:对提取的多尺度HOG特征和SIFT特征进行特征加权融合;
步骤5:利用K-means聚类算法对上一步骤加权融合后得到的融合特征进行聚类,构造视觉词典;
步骤5中,K-means算法先将融合特征分为K组,随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心,聚类中心以及分配给它们的对象就代表一个聚类,每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算,直到满足终止条件停止计算;由K-means算法获得词袋模型的码本,每一类的聚类中心就是码本中的码字,码本即视觉词典,把动作序列中所有的融合特征根据欧式距离映射到离其最近的码字,统计动作序列中每个码字对应的特征出现的次数,构成直方图向量L;
步骤6:将动作序列的视觉词典向量输入SVM多分类器模型进行训练和识别。
2.根据权利要求1所述的基于YOLOv3和词袋模型的行为识别方法,其特征在于:步骤1中,YOLOv3网络先用ImageNet数据集预训练模型初始化,获得网络的初始化权重,再用CoCo数据集里跟视频行为有关的图像来微调网络,最后用训练好的YOLOv3网络识别出目标区域和非目标物体;根据识别的目标区域,返回目标位置信息(x,y,w,h),其中(x,y)为目标检测框的左上角坐标,(w,h)为框的宽和高。
3.根据权利要求1所述的基于YOLOv3和词袋模型的行为识别方法,其特征在于:步骤2中,根据目标的位置信息(x,y,w,h),对目标区域进行截取,截取边框为[y:y+1.04h,x-0.08w:x+1.08w],对视频帧的目标区域进行截取后,返回含有基本动作的动作序列帧。
4.根据权利要求1所述的基于YOLOv3和词袋模型的行为识别方法,其特征在于:步骤3中,对动作序列帧进行图像预处理:首先彩色图像灰度化,其次灰度图像亮度归一化,增强图像对比度,接着对图像进行滤波去噪处理,最后采用双线性插值方法对图像尺寸归一化,使得图像具有相同的尺寸以进行后续特征提取。
5.根据权利要求1所述的基于YOLOv3和词袋模型的行为识别方法,其特征在于:步骤3中,提取多尺度HOG特征具体为:按照差分公式计算图像梯度大小矩阵和梯度方向矩阵,将360度即2π分割成n个bins,每个bin包含度,即然后根据每个像素点的梯度方向,找到对应的bin,并且在bin值所在的维度加上梯度大小,得到一个n维的直方图;对直方图进行分块处理,得到小cells,针对每个小cell,统计其梯度方向直方图,将多个小cell构成一个block,每个block的梯度方向直方图为每个cell的梯度方向直方图的级联,级联所有block的梯度方向直方图得到整个图像的HOG特征直方图;按该步骤提取两种尺度的HOG特征直方图,并且级联两个尺度的HOG特征直方图得到多尺度的HOG特征直方图H(I)。
6.根据权利要求1所述的基于YOLOv3和词袋模型的行为识别方法,其特征在于:步骤3中,提取SIFT特征具体为:先构建尺度空间,对序列帧图像和高斯卷积核进行卷积获得不同的尺度图像,根据尺度空间构造高斯差分空间DOG;再对DOG相邻两层图像进行对比初步获得关键点,在进行极值点检测时,需将该检测点与上下相邻尺度对应的18个像素点以及同一尺度下的8个相邻像素点进行对比,当该检测点的数据大于或者小于所有相邻数据时,则该点为当前尺度下极值点;然后精确定位极值点位置,去除不稳定极值点,利用关键点领域像素的梯度方向分布特性确定关键点方向,利用直方图对特征点领域内像素对应的梯度方向和幅值进行统计,将0~360度的方向范围分为8个bins,每个bin包含45度,最后在关键点尺度空间内4×4窗口计算8个方向的梯度信息,得到4×4×8=128维SIFT特征向量S(I)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110044439.4/1.html,转载请声明来源钻瓜专利网。