[发明专利]通过着色的视觉跟踪在审
申请号: | 201980014226.8 | 申请日: | 2019-06-12 |
公开(公告)号: | CN111742345A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 阿比纳夫·什里瓦斯塔瓦;阿里礼萨·法蒂;塞尔吉奥·瓜达拉马科塔多;凯文·帕特里克·墨菲;卡尔·马丁·冯德日奇克 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06T7/246 | 分类号: | G06T7/246;G06T7/90;G06T11/00;G06N20/00 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李宝泉;任庆威 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 着色 视觉 跟踪 | ||
用于执行视觉跟踪的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。在一个方面,一种方法包括接收:(i)一个或多个参考视频帧,(ii)参考视频帧中的多个参考像素的每一个参考像素的相应参考标签,以及(iii)目标视频帧。使用着色机器学习模型处理参考视频帧和目标视频帧,以生成(i)目标视频帧中的多个目标像素和(ii)参考视频帧中的参考像素的每一个之间的相应像素相似性度量。确定目标视频帧中的每一个目标像素的相应目标标签,包括:组合(i)参考视频帧中的参考像素的参考标签,以及(ii)像素相似性度量。
技术领域
本说明书涉及使用机器学习模型来处理数据。
背景技术
机器学习模型接收输入,并基于接收到的输入生成输出,例如,预测输出。一些机器学习模型是参数模型,并且基于接收到的输入和模型的参数的值生成输出。
一些机器学习模型是采用多层模型来为接收到的输入生成输出的深度模型。例如,深度神经网络是深度机器学习模型,该深度机器学习模型包括输出层和一个或多个隐藏层,每个隐藏层将非线性变换应用于接收到的输入以生成输出。
发明内容
本说明书描述了一种系统,该系统被实现为在一个或多个位置中的一个或多个计算机上执行视觉跟踪的计算机程序。
根据第一方面,提供了一种方法,该方法包括:包括:接收:(i)一个或多个参考视频帧,(ii)参考视频帧中的多个参考像素中的每个参考像素的相应参考标签,以及(iii)目标视频帧;使用着色机器学习模型处理参考视频帧和目标视频帧,以生成(i)目标视频帧中的多个目标像素和(ii)参考视频帧中的参考像素的每个之间的相应的像素相似性度量,其中,训练着色机器学习模型以生成像素相似性度量,其中,通过组合以下各项来定义目标视频帧中的目标像素中的每个目标像素的相应估计颜色:(i)参考视频帧中的参考像素中的每个参考像素的实际颜色,以及(ii)像素相似性度量;以及,确定目标视频帧中的每个目标像素的相应的目标标签,包括:组合(i)参考视频帧中的参考像素的参考标签,以及(ii)像素相似性度量。
参考视频帧中的参考像素可以包括参考视频帧中的像素的适当子集。
参考视频帧和目标视频帧可以在被着色机器学习模型处理之前被脱色。
着色机器学习模型可以包括嵌入神经网络,并且其中,使用着色机器学习模型来处理参考视频帧和目标视频帧以生成在(i)目标视频帧中的目标像素和(ii)参考视频帧中的参考像素的每个之间的相应像素相似性度量可以包括:提供参考视频帧和目标视频帧作为对于嵌入神经网络的输入;根据嵌入神经网络参数的当前值来处理输入,以生成(i)目标视频帧中的目标像素和(ii)参考视频帧中的参考像素中的每一个的相应嵌入;以及,使用嵌入生成(i)目标视频帧中的目标像素和(ii)参考视频帧中的参考像素中的每一个之间的相应像素相似性度量。
嵌入神经网络可以包括一个或多个卷积神经网络层。
使用嵌入生成(i)目标视频帧中的目标像素和(ii)参考视频帧中的参考像素中的每一个之间的相应像素相似性度量可以包括:使用目标像素的嵌入和参考像素的嵌入之间的相似性度量来生成目标像素和参考像素之间的像素相似性度量。
像素的标签可以包括针对多个可能类别中的每一个可能类别指示所述像素对应于该类别的相应可能性的数据。
像素的标签可以包括对于多个可能的关键点中的每一个关键点指示像素对应于该关键点的相应可能性的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980014226.8/2.html,转载请声明来源钻瓜专利网。