[发明专利]用于增强图像分类的负采样算法在审
申请号: | 202080058773.9 | 申请日: | 2020-06-17 |
公开(公告)号: | CN114287005A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | O·尼尔;M·宗塔克;T·C·伯恩斯;A·辛格哈尔;张磊;I·奥弗;A·勒维;H·萨博;I·巴尔-梅纳凯姆;E·亚米;E·本托夫;A·扎曼 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06V20/40;G06V10/25;G06V10/764;G06V10/774 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 增强 图像 分类 采样 算法 | ||
本文描述的技术针对用于索引视频的系统、方法和软件。在实施方式中,方法包括标识视频帧中的目标内容周围的一个或多个感兴趣区域。此外,该方法包括在感兴趣区域之外的帧的一部分中标识与感兴趣区域相邻的潜在空区域。该方法继续标识潜在空区域中的满足一个或多个标准的至少一个空区域,并将该至少一个空区域分类为目标内容的负样本。在一些实施方式中,目标内容的负样本位于目标内容的负样本集中,利用该负样本来训练用于标识目标内容的实例的机器学习模型。
技术领域
本公开的各方面涉及机器学习和人工智能的领域,尤其涉及用于机器学习图像分类模型的半监督训练的多帧媒体文件(例如,动画视频)中的角色的自动辨识和分组。
背景技术
动画是在全球范围内的极其庞大的业务,并且是许多最大的媒体公司的主要产品。然而,动画视频通常包含非常有限的元数据,因此对特定内容的有效搜索和检索并不总是可能的。例如,动画媒体中的关键组成部分是动画角色本身。实际上,动画视频中的角色必须首先被索引,例如被检测、分类和注释,以便能够有效地搜索和检索动画视频中的那些角色。
各种服务可以利用人工智能或机器学习来理解图像。然而,这些服务通常依赖于大量的人工标记。例如,动画视频中的角色辨识目前涉及在每个角色周围手动绘制边界框,并对边界框中包含的角色使用例如该角色的名称进行标注(或标记)。对多帧动画视频的每一帧的每个角色重复这种人工注释过程。不幸的是,这种人工注释过程繁琐,并且严重限制了这些服务的可扩展性。
总的来说,本文中一些现有的或相关的系统及其相关限制的示例旨在是说明性的而非排他性的。通过阅读以下内容,现存或现有的系统的其它限制针对本领域技术人员将变得显而易见。
发明内容
除了其他益处之外,本文描述的一个或多个实施例通过提供能够自动检测多帧动画媒体文件中的角色的实例(或出现)并对其进行分组,使得每个组包含与单个角色相关联的图像的系统、方法和非暂时性计算机可读介质来解决本领域中的一个或多个前述或其他问题。然后角色组本身可以被标记并用于训练图像分类模型,以用于自动地对后续多帧动画媒体文件中的动画角色进行分类。
虽然公开了多个实施例,但是从下面的详细描述中,本发明的其他实施例针对本领域技术人员来说将变得显而易见,下面的详细描述示出并描述了本发明的说明性实施例。如将认识到的,本发明能够在各个方面进行修改,所有这些都不脱离本发明的范围。因此,附图和详细描述本质上被认为是说明性的而不是限制性的。
提供本概述是为了以简化的形式介绍一些概念,这些概念将在下面的技术公开中进一步描述。可以理解,本概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。本申请的附加特征和优点将在下面的描述中阐述,并且部分地将从描述中显而易见,或者可以通过此类示例性实施例的实践而获知。
附图说明
为了描述可以获得上述和其他优点和特征的方式,阐述更具体的描述并且将通过参考其在附图中示出的具体示例来表现出。应当理解,这些附图仅描绘了典型的示例,因此不应被认为是对其范围的限制,将通过使用附图以附加的特征和细节来描述和解释实施方式。
图1A描绘了示出根据一些实施方式的示例性动画角色辨识和索引框架的框图,动画角色辨识和索引框架用于训练基于人工智能的(基于AI的)图像分类模型来自动地对多帧动画媒体文件中的角色进行分类以进行索引。
图1B描绘了示出根据一些实施方式的示例性动画角色辨识和索引框架的框图,该动画角色辨识和索引框架应用(并且根据需要重新训练)在图1A的示例中训练的基于AI的图像分类模型。
图2描绘了根据一些实施方式以图形方式示出媒体索引器的模块之间的操作和数据流的数据流图。
图3描绘了示出根据一些实施方式的用于使用本文讨论的自动角色检测和分组技术来索引多帧动画媒体文件的示例性过程的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080058773.9/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序