[发明专利]一种基于卷积神经网络的视频动作检测方法有效

申请号：	201710177579.2	申请日：	2017-03-23
公开（公告）号：	CN106897714B	公开（公告）日：	2020-01-14
发明（设计）人：	王文敏;李志豪;王荣刚;李革;董胜富;王振宇;李英;赵辉;高文	申请（专利权）人：	北京大学深圳研究生院
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04
代理公司：	11360 北京万象新悦知识产权代理有限公司	代理人：	黄凤茹
地址：	518055 广东省深***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公布了一种视频动作检测方法，涉及计算机视觉识别技术领域。本发明视频动作检测方法基于卷积神经网络，通过在网络结构中增加时空金字塔池化层，消除网络对输入的限制，加快训练和检测的速度，提高视频动作分类和时间定位的性能；卷积神经网络包括卷积层、普通池化层、时空金字塔池化层和全连接层；卷积神经网络的输出包括类别分类输出层和时间定位计算结果输出层；本发明方法不需要通过下采样来获取不同时间长度的视频片段，而是直接一次输入整个视频，提高了效率；同时，由于网络训练的是同一频率的视频片段，并无增加类内的差异性，降低了网络的学习负担，模型收敛得更快，检测效果更好。
搜索关键词：	一种基于卷积神经网络视频动作检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种视频动作检测方法，基于卷积神经网络模型，通过在网络结构中增加时空金字塔池化层，消除网络对输入的限制，加快训练和检测的速度，提高视频动作分类和时间定位的性能；所述卷积神经网络依次包括卷积层、时空金字塔池化层、全连接层和输出层；时空金字塔池化层在最后一个卷积层和第一个全连接层之间；所述卷积神经网络的输出层包括类别分类输出层和时间定位计算结果输出层；所述视频动作检测方法分为训练阶段和检测阶段，包括如下步骤：/n(一)在训练阶段，执行如下操作：/n11)把训练视频整个输入到卷积神经网络模型中，得到特征图；/n12)在训练视频中获取不同长度的片段，根据实际视频动作片段ground truth，挑选出正样本和负样本，作为训练样本；/n13)把训练样本在特征图中对应的特征区域输入到时空金字塔池化层，得到统一尺寸的特征表达；/n14)把统一尺寸的特征输入到全连接层，通过定义损失函数获取损失值；再进行反向传播，调整模型中的参数，进行训练；/n15)逐步降低训练的学习率，当训练损失不再下降时，得到训练好的模型；/n(二)在检测阶段，执行如下操作：/n21)把待检测视频整个输入到步骤15)所述训练好的模型中；/n22)在待检测视频中提取不同长度的片段，在网络的特征层获取对应片段的特征区域，输入到时空金字塔池化层，得到统一尺寸的特征表达；/n23)对统一尺寸的特征进行判别，根据类别分类输出层得到分类置信度；选择置信度最高的分类，得到视频中所发生动作的类别；并根据网络输出层输出的时间定位计算结果，得到动作发生的起始时间和结束时间；由此实现视频动作检测。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院，未经北京大学深圳研究生院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710177579.2/，转载请声明来源钻瓜专利网。

上一篇：一种唤醒移动终端屏幕的方法及移动终端
下一篇：一种指纹解锁处理方法及移动终端

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于卷积神经网络的视频动作检测方法有效

专利文献下载