[发明专利]用于在视频中进行密集语义分割的深度学习在审
申请号: | 202010571592.8 | 申请日: | 2020-06-22 |
公开(公告)号: | CN112561920A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 安东尼·罗德斯;马南·戈尔 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06T7/11 | 分类号: | G06T7/11;G06T7/12;G06T7/136;G06T7/194;G06T7/215;G06K9/00;G06K9/32;G06N3/04;G06N3/08 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 王小衡 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 视频 进行 密集 语义 分割 深度 学习 | ||
1.一种用于在视频中提供分割的方法,包括:
生成卷积神经网络输入,该卷积神经网络输入包括当前视频帧、时间上的先前视频帧、感兴趣对象指示符帧、运动帧、以及多个特征帧,其中,所述感兴趣对象指示符帧包括所述当前视频帧中的感兴趣对象的一个或多个指示符,所述运动帧包括指示从所述先前视频帧到所述当前视频帧的运动的运动指示符,每个所述特征帧包括从应用于所述当前视频帧的对象分类卷积神经网络的各特征层压缩的特征;
将分割卷积神经网络应用于所述卷积神经网络输入,以生成所述当前视频帧的多个候选分割;并且
选择所述候选分割中的一者来作为对应于所述当前视频帧的最终分割。
2.根据权利要求1所述的方法,还包括:
将所述分类卷积神经网络应用于所述当前视频帧;
针对所述当前视频帧中的每个像素,获取多个特征值,以生成每个像素的特征值的超列,每个所述特征值来自所述分类卷积神经网络的各层中的一层;并且
压缩所述超列以确定所述多个特征帧。
3.根据权利要求2所述的方法,其中,压缩所述超列包括:将塔克分解应用于包括所述超列的特征体积,以确定包括多个压缩特征帧的核心张量。
4.根据权利要求3所述的方法,其中,所述压缩特征帧的数目不大于每个超列中的特征值的数目的一半。
5.根据权利要求1-4中任一项所述的方法,还包括:
接收与所述时间上的先前视频帧中的一个或多个第一位置对应的一个或多个用户点击指示符;并且
使用所述运动帧将所述一个或多个第一位置中的每一者投射到所述当前视频帧中的一个或多个第二位置,以确定所述当前视频帧中的所述感兴趣对象的一个或多个指示符。
6.根据权利要求5所述的方法,其中,所述感兴趣对象指示符帧的一个或多个指示符指示肯定指示符的位置,所述肯定指示符指示所述感兴趣对象,所述卷积神经网络输入还包括:背景指示符帧,该背景指示符帧包括否定指示符,所述否定指示符指示不包括所述感兴趣对象的背景的位置;肯定距离变换帧,其针对其每个像素包括指示到任何肯定指示符位置的最小距离的值;以及否定距离变换帧,其针对其每个像素包括指示到任何否定指示符位置的最小距离的值。
7.根据权利要求1至4中的任一项所述的方法,其中,所述卷积神经网络输入还包括对应于所述先前视频帧的先前分割帧。
8.根据权利要求1至4中任一项所述的方法,其中,使用包括边界损失项的损失函数来预训练所述分割卷积神经网络,所述边界损失项包括与训练感兴趣对象对应的地面真实边界点的地面真实值和与在训练期间应用所述分割卷积神经网络对应的边界点的结果值之差。
9.根据权利要求8所述的方法,其中,所述边界损失项包括伪Huber损失项,所述伪Huber损失项包括该差关于陡度参数的分数的平方,该陡度参数不利于所述分割卷积神经网络中的边界分割误差。
10.根据权利要求1至4中任一项所述的方法,其中,从所述候选分割中选择所述最终分割包括:将选择卷积神经网络应用于第二卷积神经网络输入,所述第二卷积神经网络输入包括所述当前视频帧、用户输入帧、以及所述多个候选分割。
11.根据权利要求1至4中任一项所述的方法,其中,所述当前视频帧包括每像素R、G、或B值,所述先前视频帧包括每像素R、G、或B值,所述运动帧包括每像素速度运动矢量,每个所述特征帧包括每像素压缩特征值,并且每个所述候选分割包括每个像素是所述感兴趣对象的成员的每像素概率值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010571592.8/1.html,转载请声明来源钻瓜专利网。