[发明专利]一种基于非对称多流的动作检测方法有效
申请号: | 201910458481.3 | 申请日: | 2019-05-29 |
公开(公告)号: | CN110263666B | 公开(公告)日: | 2021-01-19 |
发明(设计)人: | 王乐;康子健;刘子熠;郑南宁 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 范巍 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 称多 动作 检测 方法 | ||
本发明公开了一种基于非对称多流的动作检测方法,包括以下步骤:从先验视频中提取RGB图像和光流,训练获得训练好的RGB图像单流网络和光流单流网络;提取先验视频中每帧的图像流特征信息和光流特征信息,结合动作标签,训练非对称双流网络;通过训练好的RGB图像单流网络和光流单流网络,分别提取待检测的目标视频中每帧的图像流特征信息和光流特征信息,获得目标视频的段特征并输入训练好的非对称双流网络,计算获得视频分类向量;从视频分类向量中选择出潜在动作,获得潜在动作的动作识别序列;通过动作识别序列完成动作的检测。本发明的动作检测方法,考虑到了图像流和光流之间的不对称性,可提升动作识别和动作检测的准确率。
技术领域
本发明属于计算机视觉与模式识别技术领域,特别涉及一种基于非对称多流的动作检测方法。
背景技术
对视频动作的发现和分割是视频处理领域中重要的研究内容,被广泛运用在动作追踪和发现中,具有很大的理论研究价值和实际应用价值。其中,利用弱监督数据实现的动作检测方法只需要少量人工标注就可以获得很好的性能。弱监督实现的动作检测方法从视频级别的标签进行建模,通过注意力机制判断视频帧是否包含动作。
为了对帧建模,大多数方法首先对视频序列进行处理,提取图像流和光流并融合,接着利用视频标签训练,再根据视频帧对网络逐帧进行激活判别。在弱监督动作检测方法中,传统的双流结合方式将双流看作是对称的,带来了很强的过拟合,无法准确定位动作。
发明内容
本发明的目的在于提供一种基于非对称多流的动作检测方法,以解决上述存在的一个或多个技术问题。本发明的动作检测方法,考虑到了图像流和光流之间的不对称性,可提升动作识别和动作检测的准确率。
为达到上述目的,本发明采用以下技术方案:
一种基于非对称多流的动作检测方法,包括以下步骤:
步骤1,采集若干已标注视频标签的先验视频,从先验视频的帧信息中提取RGB图像和光流;通过提取的RGB图像并结合视频标签训练卷积神经网络,获得训练好的RGB图像单流网络;通过提取的光流并结合视频标签训练卷积神经网络,获得训练好的光流单流网络;
步骤2,通过步骤1获得的训练好的RGB图像单流网络和光流单流网络,分别提取步骤1采集的先验视频中每帧的图像流特征信息和光流特征信息;
步骤3,根据步骤2提取的图像流特征信息和光流特征信息,并结合动作标签,训练非对称双流网络,最终获得训练好的非对称双流网络;其中,非对称双流网络训练的过程包括:将图像流特征信息和光流特征信息结合作为输入,输出多流分类结果和多流注意力权重,加权多流分类结果获得视频分类向量,最小化非对称双流网络的损失函数;
步骤4,通过步骤1获得的训练好的RGB图像单流网络和光流单流网络,分别提取待检测的目标视频中每帧的图像流特征信息和光流特征信息;
步骤5,根据步骤4提取的图像流特征信息和光流特征信息,获得目标视频的段特征;将目标视频的段特征输入步骤3获得的训练好的非对称双流网络,输出段分类向量和段注意力权重;根据段分类向量和段注意力权重计算获得视频分类向量;
步骤6,从步骤5获得的视频分类向量中选择置信度大于预设值的动作作为潜在动作;其中,对于潜在动作a,从步骤5中获得的段分类向量中抽取潜在动作a的分类权重,获得潜在动作a的动作识别序列;通过潜在动作a的动作识别序列完成动作a的检测。
本发明的进一步改进在于,步骤3的非对称双流网络训练的过程中,图像流和光流信息结合的方式为:将光流特征信息作为主信息流;
将图像流特征信息和光流特征信息进行降维与融合后,作为辅助信息流;
将主信息流与辅助信息流拼合获得双流特征信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910458481.3/2.html,转载请声明来源钻瓜专利网。