[发明专利]一种基于深度学习的多级时空运动目标检测方法有效
申请号: | 201910653504.6 | 申请日: | 2019-07-19 |
公开(公告)号: | CN110378288B | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 杨依忠;张涛;胡今朝;解光军;程心;张章 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06T7/194 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 多级 时空 运动 目标 检测 方法 | ||
1.一种基于深度学习的多级时空运动目标检测方法,其特征是按如下步骤进行:
步骤1、获取带有像素级标签的视频数据集并进行分割,得到N个T帧的短视频序列并进行归一化处理,得到归一化的训练样本集记为S={S1,S2,...,Sn,...,SN};Sn表示第n个归一化后的短视频序列,且表示第n个归一化后的短视频序列Sn中第t帧图像;n=1,2,...,N;t=1,2,...,T;
步骤2、建立多尺度时空网络模型,所述多尺度时空网络模型由多尺度空间特征提取模块、多尺度时间特征 提取模块和多尺度特征融合模块组成;
步骤2.1、权值初始化:
令多尺度时空网络模型中的所有卷积层均使用Xavier方法进行初始化权值;
令三个卷积长短期记忆网络层ConvLSTM使用高斯分布进行初始化权值;
令上采样层通过反卷积实现,反卷核使用双线性插值初始化;
步骤2.2、令所述多尺度空间特征提取模块由VGG16模型的前13层构成的全卷积神经网络,依次包括:第一卷积层1、第一卷积层2、第一池化层、第二卷积层1、第二卷积层2、第二池化层、第三卷积层1、第三卷积层2、第三卷积层3、第三池化层、第四卷积层1、第四卷积层2、第四卷积层3;
将所述归一化的训练样本集S输入所述多尺度空间特征提取模块中,并经过所述第二卷积层2、第三卷积层3、第四卷积层3分别输出第一空间特征序列第二空间特征序列第三空间特征序列其中,Ft1表示第一空间特征序列F1中第t帧特征图,Ft2表示第二空间特征序列F2中第t帧特征图,Ft3表示第三空间特征序列F3中第t帧特征图;
步骤2.2、所述多尺度时间特征提取模块通过时间采样操作产生不同时间长度的特征序列,再由卷积长短期记忆层完成多尺度时间建模;
步骤2.2.1、将所述第一空间特征序列F1、第二空间特征序列F2、第三空间特征序列F3的初始时间长度均设为T;
在时间尺度上,分别以第一采样间隔d1对第一初始空间特征序列F1、以第二采样间隔d2对第二初始空间特征序列F2、以第三采样间隔d3对第三初始空间特征序列F3进行均匀采样,从而得到三个时间长度的第一时空特征序列SF1、第二时空特征序列SF2、第三时空特征序列SF3;
步骤2.2.2、采用三个卷积长短期记忆网络层ConvLSTM分别对第一时空特征序列SF1、第二时空特征序列SF2、第三时空特征序列SF3进行时间建模,并以所述卷积长短期记忆网络层ConvLSTM的最终第T个隐层状态HT作为特征输出,从而得到第T帧的第一时空信息特征图第T帧的第二时空信息特征图第T帧的第三时空信息特征图
步骤2.3、基于多尺度特征融合模块的特征融合;
步骤2.3.1、将第T帧的第一时空信息特征图经上采样层放大两倍后与第T帧的第二时空信息特征图特征图连接,得到第T帧连接后的两个尺度的时空特征融合图;
步骤2.3.2、将第T帧连接后的两个尺度的时空特征融合图经上采样层放大两倍后与第T帧的第三时空信息特征图连接,得到第T帧连接后的三个尺度的时空特征融合图;
步骤2.3.3、将第T帧连接后的三个尺度的时空特征融合图经上采样层放大两倍后,通过另一层卷积层处理后,得到第T帧的得分特征图并输入给sigmoid层,从而得到第T帧前景概率图PT;
步骤3、对初始多级时空运动目标检测模型进行离线训练,从而得到最优多级时空运动目标检测模型:
采用式(1)计算第T帧前景概率图PT与像素级标签GT之间的焦点损失值Loss,并使用自适应矩估计优化方法以学习率l_rate来更新网络权值,并在损失值Loss趋于稳定时完成离线训练;
式(1)中,K是一帧图像的总像素数,PT(k)为第T帧前景概率图PT中第k个像素是前景的概率值,GT(k)为第T帧前景概率图PT所对应的像素级标签中第k个像素的真实值,γ是可调焦距参数,a是权重因子;
步骤4、利用所述最优多级时空运动目标检测模型对任一短视频序列进行预测,得到预测的第T帧前景概率图;
将预测的第T帧前景概率图中的每个像素值分别与阈值M进行比较,并将大于阈值M的所有像素值设为前景,其余像素值设为背景,从而完成二值化阈值分割处理,并得到运动目标分割结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910653504.6/1.html,转载请声明来源钻瓜专利网。