[发明专利]一种基于深度学习的多级时空运动目标检测方法有效

申请号：	201910653504.6	申请日：	2019-07-19
公开（公告）号：	CN110378288B	公开（公告）日：	2021-03-26
发明（设计）人：	杨依忠;张涛;胡今朝;解光军;程心;张章	申请（专利权）人：	合肥工业大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06T7/194
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉;何梅生
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习多级时空运动目标检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的多级时空运动目标检测方法，其特征是按如下步骤进行：

步骤1、获取带有像素级标签的视频数据集并进行分割，得到N个T帧的短视频序列并进行归一化处理，得到归一化的训练样本集记为S＝{S₁,S₂,...,S_n,...,S_N}；S_n表示第n个归一化后的短视频序列，且表示第n个归一化后的短视频序列S_n中第t帧图像；n＝1,2,...,N；t＝1,2,...,T；

步骤2、建立多尺度时空网络模型，所述多尺度时空网络模型由多尺度空间特征提取模块、多尺度时间特征提取模块和多尺度特征融合模块组成；

步骤2.1、权值初始化：

令多尺度时空网络模型中的所有卷积层均使用Xavier方法进行初始化权值；

令三个卷积长短期记忆网络层ConvLSTM使用高斯分布进行初始化权值；

令上采样层通过反卷积实现，反卷核使用双线性插值初始化；

步骤2.2、令所述多尺度空间特征提取模块由VGG16模型的前13层构成的全卷积神经网络，依次包括：第一卷积层1、第一卷积层2、第一池化层、第二卷积层1、第二卷积层2、第二池化层、第三卷积层1、第三卷积层2、第三卷积层3、第三池化层、第四卷积层1、第四卷积层2、第四卷积层3；

将所述归一化的训练样本集S输入所述多尺度空间特征提取模块中，并经过所述第二卷积层2、第三卷积层3、第四卷积层3分别输出第一空间特征序列第二空间特征序列第三空间特征序列其中，F_t¹表示第一空间特征序列F¹中第t帧特征图，F_t²表示第二空间特征序列F²中第t帧特征图，F_t³表示第三空间特征序列F³中第t帧特征图；

步骤2.2、所述多尺度时间特征提取模块通过时间采样操作产生不同时间长度的特征序列，再由卷积长短期记忆层完成多尺度时间建模；

步骤2.2.1、将所述第一空间特征序列F¹、第二空间特征序列F²、第三空间特征序列F³的初始时间长度均设为T；

在时间尺度上，分别以第一采样间隔d₁对第一初始空间特征序列F¹、以第二采样间隔d₂对第二初始空间特征序列F²、以第三采样间隔d₃对第三初始空间特征序列F³进行均匀采样，从而得到三个时间长度的第一时空特征序列SF¹、第二时空特征序列SF²、第三时空特征序列SF³；

步骤2.2.2、采用三个卷积长短期记忆网络层ConvLSTM分别对第一时空特征序列SF¹、第二时空特征序列SF²、第三时空特征序列SF³进行时间建模，并以所述卷积长短期记忆网络层ConvLSTM的最终第T个隐层状态H_T作为特征输出，从而得到第T帧的第一时空信息特征图第T帧的第二时空信息特征图第T帧的第三时空信息特征图

步骤2.3、基于多尺度特征融合模块的特征融合；

步骤2.3.1、将第T帧的第一时空信息特征图经上采样层放大两倍后与第T帧的第二时空信息特征图特征图连接，得到第T帧连接后的两个尺度的时空特征融合图；

步骤2.3.2、将第T帧连接后的两个尺度的时空特征融合图经上采样层放大两倍后与第T帧的第三时空信息特征图连接，得到第T帧连接后的三个尺度的时空特征融合图；

步骤2.3.3、将第T帧连接后的三个尺度的时空特征融合图经上采样层放大两倍后，通过另一层卷积层处理后，得到第T帧的得分特征图并输入给sigmoid层，从而得到第T帧前景概率图P_T；

步骤3、对初始多级时空运动目标检测模型进行离线训练，从而得到最优多级时空运动目标检测模型：

采用式(1)计算第T帧前景概率图P_T与像素级标签G_T之间的焦点损失值Loss，并使用自适应矩估计优化方法以学习率l_rate来更新网络权值，并在损失值Loss趋于稳定时完成离线训练；

式(1)中，K是一帧图像的总像素数，P_T(k)为第T帧前景概率图P_T中第k个像素是前景的概率值，G_T(k)为第T帧前景概率图P_T所对应的像素级标签中第k个像素的真实值，γ是可调焦距参数，a是权重因子；

步骤4、利用所述最优多级时空运动目标检测模型对任一短视频序列进行预测，得到预测的第T帧前景概率图；

将预测的第T帧前景概率图中的每个像素值分别与阈值M进行比较，并将大于阈值M的所有像素值设为前景，其余像素值设为背景，从而完成二值化阈值分割处理，并得到运动目标分割结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合肥工业大学，未经合肥工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910653504.6/1.html，转载请声明来源钻瓜专利网。

上一篇：文档方向识别方法、装置及存储介质
下一篇：一种车辆识别代号的读取识别系统及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的多级时空运动目标检测方法有效

专利文献下载