[发明专利]用于对视频内容中的人进行自动注释的方法和系统无效

申请号：	200980135721.0	申请日：	2009-07-14
公开（公告）号：	CN102165464A	公开（公告）日：	2011-08-24
发明（设计）人：	杰伊·亚格尼科;赵铭	申请（专利权）人：	谷歌公司
主分类号：	G06K9/00	分类号：	G06K9/00
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	周亚荣;安翔
地址：	美国加利***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于视频内容中的进行自动注释方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及识别视频内容中的人。

背景技术

互联网拥有包括文本、图像和视频的各种不同类型的大量内容。利用该内容要求所述内容是能够搜索且经过组织的。通常基于用户手工分配的标签搜索和组织图像。类似地，通常基于手工分配的标签搜索和组织视频内容。

然而，在向大量可在互联网上获得的视频内容手工分配标签时保持一致性是不切实际的。例如，每个视频可具有相当的长度并且可以包括出现在视频不同部分中的许多人。视频可以根据姿势、表情、照明、遮挡(occlusion)和质量而有所不同。这就需要相当数量的人为努力来以视频中出现的每个人的名称对视频准确加标签。对内容加标签的手工方法无法扩展到大量可在互联网上获得的内容。

对一般的对象识别的当前方法包括：使用图像搜索引擎找到与给定查询相关的图像并接着学习用于各种对象的相关模型，所述模型接着被用于图像和视频中的对象检测/识别。然而，这些方法并未解决单个人的脸部在大型数据集合中所表现出来的实质性变化，并且无法稳健地识别属于同一个人但是由于包括年龄、化妆、表情、光线条件等方面而具有实质性变化的脸部。其它方法自动提取脸部的判定坐标并且应用聚类步骤来使用新闻存档估计可能的标记。然而，直接基于脸部的判定坐标的集群并未解决图像序列中所出现的噪声问题。

因此，需要基于在视频中出现的人的脸部自动对视频内容进行注释的方法和系统。

发明内容

在一个实施例中，一种计算机实现的识别视频中的脸部的方法包括以下阶段：从输入视频流生成一个或多个脸部轨迹；为所述一个或多个脸部轨迹中的每一个选择关键脸部图像；对所述脸部轨迹进行聚类以生成脸部集群，其中每个脸部集群与一个或多个关键脸部图像相关联；从所述脸部集群创建脸部模型；以及将脸部模型与脸部模型数据库相互关联。

在另一个实施例中，一种用于识别视频中的脸部的系统包括组件：具有脸部条目的脸部模型数据库，所述脸部条目具有脸部模型和对应名称；以及视频脸部识别器模块，所述视频脸部识别器模块可以包括：脸部检测模块，其检测输入视频流中的脸部；脸部追踪模块，其对所检测的脸部进行追踪并生成脸部轨迹；轨迹内脸部聚类模块；轨迹间脸部聚类模块；检测脸部模型生成器模块；和模型比较模块，其将所检测的脸部模型与数据库中的脸部条目进行比较。

在又另一个实施例中，一种用于识别视频中的脸部的系统包括脸部模型生成器，所述脸部模型生成器具有组件：名称生成模块，其生成名称列表；图像搜索模块，其定位与所述名称列表相对应的图像；脸部检测模块；脸部模型生成模块；收集模块，其成对地存储一个或多个脸部模型和相应名称；和一致性学习模块。除了检测脸部模型和名称对之外，所述收集模块还可以存储从用户输入所得出的脸部模型和名称对。

以下参考附图对本发明的其它特征和优势及其各种实施例的结构和操作进行详细描述。应注意，本发明不局限于这里所描述的特定实施例。这些实施例仅是出于说明的目的而在此给出。基于这里所包含的教导，其它实施例对于相关领域的技术人员将是显而易见的。

附图说明

将参考本发明的实施例，其示例可以在附图中进行图示。这些图意在进行说明而非限定。虽然本发明总体上在这些实施例的背景下进行描述，但是应当理解的是，并非意在将本发明的范围局限于这些特定实施例。

图1是根据本发明一个实施例的系统示图。

图2示出了根据本发明实施例的脸部模型生成器模块的组件。

图3示出了根据本发明实施例的视频脸部识别模块的组件。

图4示出了实现本发明实施例的计算机实现的方法的高层级流程图，包括模型构建阶段和视频脸部识别阶段。

图5示出了根据本发明实施例的图4中的模型生成阶段的更详细操作。

图6示出了根据本发明实施例的对应于一个人的脸部模型条目的结构。

图7示出了根据本发明实施例的图4中的视频脸部识别阶段的更详细操作。

图8是根据本发明实施例的图7中的脸部检测和追踪阶段的详细操作示图。

具体实施方式