[发明专利]基于三维金字塔图像生成网络的人群异常事件检测方法有效
申请号: | 201910398306.X | 申请日: | 2019-05-14 |
公开(公告)号: | CN110097028B | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 郭迎春;师硕;郝小可;朱叶;刘依;于洋;阎刚;王柏林 | 申请(专利权)人: | 河北工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 天津翰林知识产权代理事务所(普通合伙) 12210 | 代理人: | 胡安朋 |
地址: | 300130 天津市红桥区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 三维 金字塔 图像 生成 网络 人群 异常 事件 检测 方法 | ||
1.基于三维金字塔图像生成网络的人群异常事件检测方法,其特征在于:使用三维金字塔图像生成网络生成图像,通过对比由三维金字塔图像生成网络生成的生成图像和待检测图像之间的差异进行人群异常事件的检测,具体步骤如下:
第一步,将人群活动的视频转换成图像序列:
获取人群活动的一组视频序列,使用OpenCV从任一人群视频i中提取N帧图像fi1,fi2,...,fiN组成视频i的图像序列,表示为Fi{fi1,fi2,...,fid,...,fiN},其中fid代表视频i提取得到的图像序列的第d帧图像,N为200,对所得到的图像序列Fi中图像进行标准化操作,将图像大小标准化为M×M个像素,M为256;所有视频序列提取得到的图像序列集合为T{F1,F2,...,Fi,...,Fq},其中q代表视频序列的个数,Fi代表第i个视频的图像序列,表示为Fi{fi1,fi2,...,fid,...,fiN},由此将人群活动的视频转换成为图像序列;
第二步,获取训练集中的视频训练数据:
对数据库中的训练集里的没有任何标签的视频帧,按照所示第一步的操作将人群活动的视频序列转换成图像序列,每个人群活动的视频对应一个图像序列,第i个视频对应的图像序列为Fi{fi1,fi2,...,fid,...,fiN},N为200,从Fi选取从第j帧开始长度为L的连续图像子序列Fij{fij,fij+1,...,fij+L-1},1≤j≤N-L,L为5,j为连续图像子序列的起始帧编号,j+L-1为连续图像子序列的结束帧编号,fij代表第i个视频中的第j帧图像,fij+L-1代表第i个视频对应的第j+L-1帧图像,视频i生成的训练数据为Tri{Fi1,Fi2,...,Fij,...,FiN-L},其中Fij代表第i个视频中以第j帧图像为起始帧的图像子序列,最终生成的训练集数据为Tr{Tr1,Tr2,...,Tri,...,Trq},其中Tri代表第i个视频训练数据,q是视频序列的个数,由此获取了训练集中的视频训练数据;
第三步,构建三维金字塔图像生成网络:
三维金字塔图像生成网络的构建由三部分操作组成,依次为五层3DCNN操作、四个通道的空间金字塔池化模块操作和上采样模块操作;
第(3.1)步,五层3DCNN卷积操作:
往三维金字塔图像生成网络中输入上述第二步得到的视频训练数据,视频中图像的大小为H×H,H为256,经过3DCNN后,特征图像大小变为输入图像大小的1/8,经过第一层,卷积后的特征图像大小为256×256像素,通道数为64;经过第二层,池化后的特征图像大小为128×128像素,通道数为128;经过第三层,卷积后的特征图像大小为128×128像素,通道数为256;经过第四层,池化后的特征图像大小为64×64像素,通道数为1024;经过第五层,卷积后的特征图像大小为32×32像素,通道数为2048;其中卷积操作的公式如下,
F_out=(F_in+2p-k)/s+1 (1),
公式(1)中,F_out是经过卷积层后的结果,F_in表示卷积层的输入图像大小,k表示卷积核大小,s表示卷积核在扫描图像时每一次移动的步长,p表示是图像矩阵周围补零数;
第(3.2)步,四个通道的空间金字塔池化模块操作;
将上述第(3.1)步中得到的特征图像输入到具有四个通道的空间金字塔池化模块中,金字塔池化模块操作公式如下,
C_out=(C_in-k)/s+1 (2),
公式(2)中,C_out是经过池化层后结果的维度大小,C_in表示池化层输入的维度大小,k表示卷积核大小,s表示卷积核在扫描图像时每一次移动的步长,金字塔池化模块的四个通道分别将输入的特征图像变为1×1、2×2、3×3和6×6大小的特征图像,并且在每一个通道进行了1×1的卷积,实现维数降低;
第(3.3)步,上采样模块操作;
接着将上述第(3.2)步得到的四个通道的空间金字塔池化模块操作的结果进行上采样模块操作,上采样模块操作的公式如下,
公式(3)中,f(x,y)表示上采样的结果,Q11=(x1,y1),Q12=(x1,y2),Q21=(x2,y1)及Q22=(x2,y2)表示四个插值基础点,分别经过x方向,y方向进行线性插值完成上采样操作,上采样模块操作结果得到和原始图像大小一致的图像;
接着将进行上采样模块操作得到和原始图像大小一致的图像和上述第(3.1)步的五层3DCNN卷积操作输出的特征图像进行级联,得到融合时空特征和不同尺度局部特征的结果;
由此完成构建三维金字塔图像生成网络;
第四步,基于三维金字塔图像生成网络的三维金字塔人群异常事件检测模型的构建与训练:
在上述第三步构建成三维金字塔图像生成网络的基础上构建与训练三维金字塔人群异常事件检测模型,具体操作如下:
第(4.1)步,计算生成图像与真实图像之间的欧式距离Sed:
用以下公式(4)计算生成图像与真实图像之间的欧式距离Sed,
公式(4)中,I表示真实图像,表示生成图像,W表示图像的尺寸,(i,j)表示图像的像素坐标,I(i,j)表示图像中像素点的值;
第(4.2)步,提取图像梯度Sgrd:
用以下公式(5)提取图像梯度Sgrd,
公式(5)中,I表示真实图像,表示生成图像,W表示图像的尺寸,(i,j)表示图像的像素坐标,I(i,j)表示图像中像素点的值,i-1表示图像水平方向i左边的像素坐标,j-1表示图像垂直方向j上方的像素坐标,||·||1表示一范数;
第(4.3)步,获取图像VGG16深度特征距离Svgg:
用以下公式(6)获取图像VGG16深度特征距离Svgg,
公式(6)中Vgg表示预训练模型,VggI(i,j)表示真实图像对应的VGG16深度特征,表示生成图像对应的VGG16深度特征,R,C表示VGG16深度特征图的尺寸大小;
具体操作过程是,首先获取VGG16预训练模型,VGG16模型输入的图像大小为224×224像素,需要将第一步中得到的256×256像素大小的图像转化为大小为224×224像素的图像,然后通过VGG16网络的第一层,卷积后的图像大小为224×224像素,通道数为64;通过VGG16网络的第二层,池化后的图像大小为112×112像素,通道数为64;通过VGG16网络的第三层,卷积后的图像大小为112×112像素,通道数为128;通过VGG16网络的第四层,池化后的图像大小为56×56像素,通道数为128;通过VGG16网络的第五层,卷积后的图像大小为56×56像素,通道数为256;VGG16网络的第六层,池化后的图像大小为28×28像素,通道数为256;通过VGG16网络的第七层,卷积后的图像大小为28×28像素,通道数为512;通过VGG16网络的第八层,池化后的图像大小为14×14像素,通道数为512;通过VGG16网络的第九层,卷积后的图像大小为14×14像素,通道数为512;通过VGG16网络的第十层,池化后的图像大小为7×7像素,通道数为512,将图像当前的池化特征作为图像的VGG16提取的特征;
由上述第(4.1)步、第(4.2)步和第(4.3)步中得到的生成图像与真实图像间的欧式距离Sed、图像梯度Sgrd和图像VGG16深度特征距离Svgg三部分,最后组成三维金字塔人群异常事件检测模型的损失函数Lossg,Lossg的组成部分如公式(7)所示,
Lossg=μed×Sed+μgrd×Sgrd+μvgg×Svgg (7),
公式(7)中μed、μgrd、μvgg为Sed、Sgrd、Svgg对应的系数,通过不断缩小Lossg的大小进行网络的训练,至此基于三维金字塔图像生成网络的三维金字塔人群异常事件检测模型构建完成;
对基于三维金字塔图像生成网络的三维金字塔人群异常事件检测模型进行训练操作方法如下:
对上述第二步生成的训练数据Tr{Tr1,Tr2,...,Tri,...,Trq},根据每一个视频i的训练数据Tri{Fi1,Fi2,...,Fij,...,FiN-L},选取从第j帧开始,长度为L的连续图像子序列Fij{fij,fij+1,...,fij+L-1},1≤j≤N-L,N=200,L=5,该图像子序列Fij的第L帧图像fij+L-1记为I,将该子序列的前L-1帧图像输入到上述基于三维金字塔图像生成网络的三维金字塔人群异常事件检测模型中,三维金字塔图像生成网络根据前L-1帧图像序列生成其下一帧即第L帧图像,记为再通过损失函数Lossg进行模型的优化,缩小正常真实图像与生成图像之间的差距进行训练,其中损失函数Lossg的反向传播算法为Adam,对损失函数Lossg的梯度进行一阶矩估计记为mt,二阶矩估计记为vt,计算公式分别如下,
mt=β1mt-1+(1-β1)gt (8),
vt=β2vt-1+(1-β2)gt2 (9),
公式(8)、公式(9)中β1、β2表示默认参数,gt表示损失函数Lossg的当前梯度,再分别对mt、vt进行校正,这样可以近似为对期望的无偏估计,校正公式为如下,
公式(10)和公式(11)中,表示校正后的结果,β1、β2表示默认参数,α,ε为超参数,最后网络参数的优化为公式(12)如下,
公式(12)中,θt为当前的参数权重,θt+1为梯度方向下降后的参数权重,以此进行完成上述基于三维金字塔图像生成网络的三维金字塔人群异常事件检测模型的训练操作;
第五步,获得检测视频序列的生成图像
将检测视频序列按照上述第二步训练集中的视频训练数据的制作步骤,得到待检测视频序列Te{K1,K2,...,Ku,...,Ks},其中s表示测试视频的数量,根据每一个待检测视频u的测试数据Ku,从第u个视频中选取从第ν帧开始,长度为L的连续图像子序列Kuv{kuv,kuv+1,...,kuv+L-1},1≤ν≤N-L,N=200,L=5,该子序列Kuv的第L帧图像fuv+L-1为待检测图像,被记作Itc,将该子序列的前L-1帧图像输入到上述第四步中训练好的基于三维金字塔图像生成网络的三维金字塔人群异常事件检测模型中,首先经过5层3DCNN得到大小为输入图像的1/8的特征图像,再经过三维金字塔图像网络的池化得到四个不同尺度的特征图像,并将池化后的特征图像上采样模块操作到大小为输入1/8大小的特征图像与3DCNN得到的特征图像进行级联,最后将级联特征图像上采样模块操作到原始大小的图像,获得生成图像如下公式(13)所示,
公式(13)中,TDPNet表示基于三维金字塔图像生成网络的三维金字塔人群异常事件检测模型参数,Kuv{kuv,kuv+1,...,kuv+L-2}表示输入的前L-1帧图像,表示生成图像;
第六步,基于三维金字塔图像生成网络的人群异常事件检测:
对上述第五步得到的生成图像计算和待检测图像Itc之间的峰值信噪比PSNR,如公式(14)所示,
公式(14)中,q为图像的像素个数,Itc表示待检测图像,表示生成图像,表示生成图像中图像像素点颜色的最大数值,PSNR越大,表示待检测图像Itc没有发生异常情况的可能性越大,再将PSNR归一化,表示为Score(t)如下,
公式(15)中,t表示图像序列中第t帧图像,It表示当前测试视频对应图像序列中真实的第t帧图像,表示与It对应的生成图像,表示当前检测视频对应的图像序列中真实的第t帧图像It和其对应的生成图像之间的PSNR值,表示当前检测视频对应的图像序列中真实的第t帧图像It和其对应的生成图像之间PSNR值的最小值,表示当前检测视频对应的图像序列中真实的第t帧图像It与其对应的生成图像之间PSNR值的最大值,以此进行归一化操作,对上述得到的Score(t),计算ROC,AUC曲线,根据计算出来的阈值Threshold对比Score(t)大小,Score(t)Threshold则为人群正常图像,反之则为发生人群异常事件情况的图像;
至此完成基于三维金字塔图像生成网络的人群异常事件检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工业大学,未经河北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910398306.X/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序