[发明专利]一种基于卷积神经网络的视频动作检测方法有效
申请号: | 201710177579.2 | 申请日: | 2017-03-23 |
公开(公告)号: | CN106897714B | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 王文敏;李志豪;王荣刚;李革;董胜富;王振宇;李英;赵辉;高文 | 申请(专利权)人: | 北京大学深圳研究生院 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 11360 北京万象新悦知识产权代理有限公司 | 代理人: | 黄凤茹 |
地址: | 518055 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公布了一种视频动作检测方法,涉及计算机视觉识别技术领域。本发明视频动作检测方法基于卷积神经网络,通过在网络结构中增加时空金字塔池化层,消除网络对输入的限制,加快训练和检测的速度,提高视频动作分类和时间定位的性能;卷积神经网络包括卷积层、普通池化层、时空金字塔池化层和全连接层;卷积神经网络的输出包括类别分类输出层和时间定位计算结果输出层;本发明方法不需要通过下采样来获取不同时间长度的视频片段,而是直接一次输入整个视频,提高了效率;同时,由于网络训练的是同一频率的视频片段,并无增加类内的差异性,降低了网络的学习负担,模型收敛得更快,检测效果更好。 | ||
搜索关键词: | 一种 基于 卷积 神经网络 视频 动作 检测 方法 | ||
【主权项】:
1.一种视频动作检测方法,基于卷积神经网络模型,通过在网络结构中增加时空金字塔池化层,消除网络对输入的限制,加快训练和检测的速度,提高视频动作分类和时间定位的性能;所述卷积神经网络依次包括卷积层、时空金字塔池化层、全连接层和输出层;时空金字塔池化层在最后一个卷积层和第一个全连接层之间;所述卷积神经网络的输出层包括类别分类输出层和时间定位计算结果输出层;所述视频动作检测方法分为训练阶段和检测阶段,包括如下步骤:/n(一)在训练阶段,执行如下操作:/n11)把训练视频整个输入到卷积神经网络模型中,得到特征图;/n12)在训练视频中获取不同长度的片段,根据实际视频动作片段ground truth,挑选出正样本和负样本,作为训练样本;/n13)把训练样本在特征图中对应的特征区域输入到时空金字塔池化层,得到统一尺寸的特征表达;/n14)把统一尺寸的特征输入到全连接层,通过定义损失函数获取损失值;再进行反向传播,调整模型中的参数,进行训练;/n15)逐步降低训练的学习率,当训练损失不再下降时,得到训练好的模型;/n(二)在检测阶段,执行如下操作:/n21)把待检测视频整个输入到步骤15)所述训练好的模型中;/n22)在待检测视频中提取不同长度的片段,在网络的特征层获取对应片段的特征区域,输入到时空金字塔池化层,得到统一尺寸的特征表达;/n23)对统一尺寸的特征进行判别,根据类别分类输出层得到分类置信度;选择置信度最高的分类,得到视频中所发生动作的类别;并根据网络输出层输出的时间定位计算结果,得到动作发生的起始时间和结束时间;由此实现视频动作检测。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710177579.2/,转载请声明来源钻瓜专利网。