[发明专利]通过稀疏时间池化网络的弱监督动作定位在审
申请号: | 201880044450.7 | 申请日: | 2018-11-05 |
公开(公告)号: | CN110832499A | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 刘汀;G.普拉萨德;P.X.阮;B.韩 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 稀疏 时间 网络 监督 动作 定位 | ||
提供了用于弱监督动作定位模型的系统和方法。根据本公开的示例方面的示例模型可以使用诸如卷积神经网络的机器学习模型来对未修剪的视频中的动作进行定位和/或分类。示例模型可以在给定视频级类别标签的情况下预测人类动作的时间间隔,而不需要动作的时间定位信息。示例模型可以识别动作并通过视频帧的自适应时间池化标识与动作相关联的关键帧的稀疏集合,其中模型的损失函数由分类错误和帧选择的稀疏性组成。在用稀疏关键帧注意进行动作识别之后,可以使用时间类别激活映射提取动作的时间建议,并可以估计与目标动作相对应的最终时间间隔。
优先权要求
本申请基于并要求于2017年11月14日提交的美国临时申请62/586,078的权益,其通过引用并入本文。
技术领域
本公开总体上涉及视频动作检测和定位。更具体地,本公开涉及未修剪的视频的弱监督时间动作定位模型。
背景技术
视频中的动作识别是高级别视频理解的关键问题之一,包括事件检测、视频摘要和视频中的视觉问题解答。在过去的十年中,许多研究人员一直在广泛地研究该问题。动作识别中的主要挑战是缺乏合适的视频表示方法。与卷积神经网络(CNN)在与图像有关的许多视觉识别问题中几乎立竿见影的成功相反,由于存在许多问题,包括数据固有的复杂结构、大文件大小以及缺乏对时间信息建模的知识,将深度神经网络应用于视频数据并不是一件容易的事。因此,基于来自深度学习的表示的技术并没有比依靠手工制作的视觉特征的方法更好。结果,许多现有算法试图通过结合手工制作和学习/训练的特征来实现最先进的性能。
另一个问题是,大多数现有技术都将修剪的视频用于视频级文本分类,或者需要对动作间隔进行注释以进行时间定位。由于未修剪的视频通常包含大量与视频级类别标签直接相关的不相关帧,因此,视频表示学习和动作分类可能无法从原始视频中提取必要的信息。另一方面,对大规模数据集进行动作定位的注释非常昂贵且耗时,因此,更需要开发一种在运行时无需此类时间注释的有竞争力的算法。
发明内容
本公开的实施例的方面和优点将在以下描述中部分地阐述,或者可以从描述中获悉,或者可以通过实施例的实践来获知。
本公开的一个示例方面涉及一种用于在视频中在时间上定位目标动作的计算机实现的方法。该计算机实现的方法可以包括将包含RGB串流的视频输入到稀疏时间池化网络中。稀疏时间池化网络可以包括第一弱监督时间动作定位模型和第二弱监督时间动作定位模型。该计算机实现的方法还可以包括通过稀疏时间池化网络确定视频的光流串流。该计算机实现的方法还可以包括通过第一弱监督时间动作定位模型分析RGB串流以确定包括时域中的一维特定于类别的激活图的RGB加权的时间类别激活图。该计算机实现的方法还可以包括通过第二弱监督时间动作定位模型分析光流串流,以确定包括时域中的一维特定于类别的激活图的流加权的时间类别激活图。该计算机实现的方法还可以包括至少部分地基于RGB加权的时间类别激活图或加权的时间类别激活图通过稀疏时间池化网络确定目标动作在视频中的时间位置。
本公开的另一个示例方面涉及一种训练弱监督时间动作定位模型的计算机实现的方法。该计算机实现的方法可以包括将未修剪的视频输入到弱监督时间动作定位模型中。该计算机实现的方法还可以包括通过弱监督时间动作定位模型分析未修剪的视频以确定动作分类的预测得分。该计算机实现的方法还可以包括至少部分地基于预测得分确定损失函数。损失函数可以包括稀疏损失和分类损失。该计算机实现的方法还可以包括至少部分地基于损失函数训练弱监督时间动作定位模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880044450.7/2.html,转载请声明来源钻瓜专利网。