[发明专利]通过稀疏时间池化网络的弱监督动作定位在审
申请号: | 201880044450.7 | 申请日: | 2018-11-05 |
公开(公告)号: | CN110832499A | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 刘汀;G.普拉萨德;P.X.阮;B.韩 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 稀疏 时间 网络 监督 动作 定位 | ||
1.一种计算机实现的方法,用于在视频中在时间上定位目标动作,包括:
将视频输入到包括一个或多个弱监督时间动作定位模型的机器学习模型中;
通过所述一个或多个弱监督时间动作定位模型分析所述视频以确定一个或多个加权的时间类别激活图;每个时间类别激活图包括时域中的一维特定于类别的激活图;以及
至少部分地基于所述一个或多个加权的时间类别激活图确定目标动作在所述视频中的时间位置。
2.如权利要求1所述的计算机实现的方法,其中所述机器学习模型包括稀疏时间池化网络,所述稀疏时间池化网络包括第一弱监督时间动作定位模型和第二弱监督时间动作定位模型。
3.如权利要求1或2所述的计算机实现的方法,其中所述视频包括RGB串流。
4.如权利要求2所述计算机实现的方法,还包括:
至少部分地基于所述视频生成光流串流;以及
其中所述视频输入到包括一个或多个弱监督时间动作定位模型的所述机器学习模型中包括:
将所述视频输入到所述第一弱监督时间动作定位模型中,以及;
将所述光流串流输入到所述第二弱监督时间动作定位模型中。
5.如权利要求4所述的计算机实现的方法,其中通过所述一个或多个弱监督时间动作定位模型来分析所述视频以确定所述一个或多个加权的时间类别激活图包括;
通过所述第一弱监督时间动作定位模型分析所述视频以确定第一加权的时间类别激活图,所述第一加权的时间类别激活图包括所述时域中的第一一维特定于类别的激活图;以及
通过所述第二弱监督时间动作定位模型分析所述光流串流以确定第二加权的时间类别激活图,所述第二加权的时间类别激活图包括所述时域中的第二一维特定于类别的激活图。
6.如权利要求5所述的计算机实现的方法,其中至少部分地基于所述一个或多个加权的时间类别激活图确定所述目标动作在所述视频中的所述时间位置包括:
至少部分地基于所述第一加权的时间类别激活图和所述第二加权的时间类别激活图确定所述目标动作在所述视频中的所述时间位置。
7.如权利要求6所述的计算机实现的方法,其中至少部分地基于所述一个或多个加权的时间类别激活图确定所述目标动作在所述视频中的所述时间位置包括:
为所述视频和所述光流串流中的每一个生成一个或多个特定于类别的时间建议,每个特定于类别的时间建议包括从所述视频或所述光流串流提取的一维连接的分量。
8.如权利要求7所述的计算机实现的方法,其中为所述视频和所述光流串流中的每一个生成所述一个或多个特定于类别的时间建议包括:对所述第一加权的时间类别激活图进行阈值化以将所述视频分割成一个或多个特定于类别的建议的第一集合,并对所述第二加权的时间类别激活图进行阈值化以将所述光流串流分割成一个或多个特定于类别的时间建议的第二集合。
9.如权利要求7-8中任一项所述的计算机实现的方法,其中生成所述一个或多个特定于类别的时间建议包括对所述第一加权的时间类别激活图和所述第二加权的时间类别激活图中的一个或多个进行线性内插。
10.如权利要求7-9中任一项所述的计算机实现的方法,至少部分地基于所述第一加权的时间类别激活图和所述第二加权的时间类别激活图确定所述目标动作在所述视频中的所述时间位置包括:
选择来自视频或所述光流串流中的任一个的特定的时间间隔的第一特定于类别的时间建议;以及
确定是否存在来自所述视频或所述光流串流中的另一个的对应的时间间隔的第二特定于类别的时间建议。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880044450.7/1.html,转载请声明来源钻瓜专利网。