[发明专利]用于在视频中进行密集语义分割的深度学习在审

申请号：	202010571592.8	申请日：	2020-06-22
公开（公告）号：	CN112561920A	公开（公告）日：	2021-03-26
发明（设计）人：	安东尼·罗德斯;马南·戈尔	申请（专利权）人：	英特尔公司
主分类号：	G06T7/11	分类号：	G06T7/11;G06T7/12;G06T7/136;G06T7/194;G06T7/215;G06K9/00;G06K9/32;G06N3/04;G06N3/08
代理公司：	北京东方亿思知识产权代理有限责任公司 11258	代理人：	王小衡
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于视频进行密集语义分割深度学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本文涉及用于在视频中进行具有自动交互性和改进的时间相干性的密集语义分割的深度学习。讨论了与将视频帧自动分割为每像素密集感兴趣对象和背景区域有关的技术。这样的技术包括将分割卷积神经网络(CNN)应用于CNN输入，该CNN输入包括当前视频帧、先前视频帧、感兴趣对象指示符帧、运动帧、和多个特征帧，每个特征帧包括从应用于当前视频帧的对象分类卷积神经网络的各特征层压缩的特征，以生成候选分割；并且选择候选分割中的一者来作为当前视频帧的最终分割。

背景技术

在交互式视频分割中，接收到(通过用户对图像的点击)指示前景对象或感兴趣对象(例如，肯定点击)和背景(例如，否定点击)的用户输入。然后利用该用户输入，以便在整个视频剪辑中自动呈现对感兴趣对象的像素级分割。这样的交互式视频分割可以用在转描技术(rotoscoping)(例如，将图像转移到另一视频序列的过程)或其他应用中。值得注意的是，所得到的语义分割数据在诸如视觉效果之类的各种情境中是有用的。例如，自动视频分割可以有利地代替在媒体、电影、以及相关产业中使用的劳动密集型且昂贵的转描技术。

当前的语义技术包括使用人工设计的特征和距离度量，以及使用卷积神经网络以将静态图像分割为例如前景和背景区域。然而，对于改进的密集语义分割仍有持续存在的兴趣。正是关于这些和其他考虑，需进行本改进。随着在视频中应用密集语义分割的需求变得越来越普遍，这种改进可变得至关重要。

附图说明

在附图中以示例方式而非限制方式图示了本文描述的素材。为了图示的简单和清晰，附图中图示的元素不一定是按比例绘制的。例如，为了清晰，一些元素的尺寸相对于其他元素可被夸大。另外，在认为适当时，附图标记在附图之间被重复以指示出对应的或相似的元素。在附图中：

图1图示出由示例系统进行的示例卷积神经网络输入的生成；

图2图示出输入图像的来自应用于输入图像的对象分类卷积神经网络的各特征层的卷积网络特征的示例体积(volume)；

图3图示出对特征体积的示例压缩，以生成用于CNN输入的特征帧；

图4图示出由示例系统进行的示例分割的生成以及对最终分割的选择；

图5是图示出用于从输入视频以及用户对象和背景选择来生成分割掩模的示例过程的流程图；

图6是图示出用于训练分割卷积神经网络的示例过程的流程图；

图7图示出用于分割的示例输入视频帧以及相应的最终分割；

图8是图示出用于在视频中提供分割的示例过程的流程图；

图9是用于在视频中提供分割的示例系统的示意图；