[发明专利]合成感知数字图像搜索在审
申请号: | 201910143100.2 | 申请日: | 2019-02-26 |
公开(公告)号: | CN110516096A | 公开(公告)日: | 2019-11-29 |
发明(设计)人: | 沈晓辉;林哲;K·K·萨恩卡瓦利;赵恒双;B·L·普里斯 | 申请(专利权)人: | 奥多比公司 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/58;G06F16/53;G06K9/34;G06K9/62 |
代理公司: | 11256 北京市金杜律师事务所 | 代理人: | 酆迅<国际申请>=<国际公布>=<进入国 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数字图像 三元组 感知 卷积神经网络 合成 捕获 搜索 数字图像获取 图像搜索系统 背景场景 机器学习 前景对象 双流 嵌入 联合 学习 | ||
本公开的实施例涉及合成感知数字图像搜索。描述了利用机器学习的合成感知数字图像搜索技术和系统。在一个示例中,合成感知图像搜索系统采用双流卷积神经网络(CNN),以从捕获前景对象的前景数字图像和捕获背景场景的背景数字图像联合学习特征嵌入。为了训练卷积神经网络的模型,使用训练数字图像的三元组。每个三元组可以包括从相同数字图像获取的正前景数字图像和正背景数字图像。三元组还包含负前景或背景数字图像,其与也作为三元组中的部分被包括的正前景或背景数字图像不同。
技术领域
本发明的各实施例涉及合成感知数字图像搜索。
背景技术
数字图像合成是由计算设备的图像处理系统实现的基本任务,作为数字图像编辑和图形设计的一部分。数字图像合成涉及组合来自不同源的前景对象和背景场景,以生成新的合成数字图像。然而,由于由这些常规技术支持的用户交互的低效率,用于执行数字图像合成的常规技术计算效率低,并且令用户感到沮丧。这些低效率和用户沮丧感由大量不同的数字图像而被加剧,这些数字图像可以充当这些对象和场景的源,其可能以数百万计。
例如,可以使用广泛的特性来定义前景对象与背景场景的兼容性,特性的重要性可以基于在数字图像中包括的内容而不同。在一个这种示例中,当在道路的背景场景上插入汽车的前景对象时,视点可以具有更大的重要性。另一方面,在合成具有雪山的滑雪者时,语义一致性(semantic consistency)可以具有更大的重要性。然而,常规技术关注于单个特性或者依赖于特征的手动提取来定义匹配标准。因此,这些常规技术不能适应于不同的特性以及在定义针对如上所述的不同对象类别的匹配时这些特性的不同相对重要性。此外,这些常规技术在面对“大数据”时可能会失效,因为涉及解决可用作合成源的数百万数字图像,其中一个示例是经由网络可访问的库存数字图像系统。
发明内容
描述了利用机器学习的合成感知数字图像搜索技术和系统。在一个示例中,合成感知图像搜索系统采用双流卷积神经网络(CNN),以从捕获前景对象的前景数字图像和捕获背景场景的背景数字图像联合学习特征嵌入。
为了训练卷积神经网络的机器学习模型,使用训练数字图像的三元组(triplet)。每个三元组包括例如通过使用分割掩模注释(segmentation mask annotation)从相同数字图像获取的正前景数字图像和正背景数字图像。三元组还包含负前景或背景数字图像,其与也作为三元组的部分被包括的正前景或背景数字图像不同。例如,为了支持前景对象的搜索,在训练模型时使用正和负前景数字图像以及正背景数字图像。另一方面,为了支持对背景场景的搜索,在训练模型时使用正和负背景数字图像以及正前景数字图像。然后,训练数字图像的三元组由相应的背景和前景卷积神经网络(CNN)联合使用损失函数(例如三元组损失)进行处理,以学习共同嵌入空间。然后,一旦学习了该共同嵌入空间,系统可以使用该共同嵌入空间来定义前景和背景数字图像彼此的兼容性。
本发明内容以简化的形式介绍了一些概念,这些概念将在下面的具体实施方式中进一步描述。因此,本发明内容不旨在标识所要求保护的主题内容的必要特征,也不旨在用于辅助确定所要求保护的主题内容的范围。
附图说明
参考附图描述了详细描述。附图中表示的实体可以指示一个或多个实体,因此可以在讨论中将单个或多个形式的实体互换地引用。
图1是可操作以采用本文中所描述的合成感知数字图像搜索技术的示例实施方式中的环境的图示。
图2描绘了示例实施方式中的系统,其更详细地示出了图1的合成感知图像搜索系统的双流系统架构。
图3描绘了示例实施方式中的系统,其结合类别信息更详细地示出了图2的合成感知图像搜索系统的双流系统架构。
图4是描绘了示例实施方式中的程序的流程图,其中基于使用机器学习从前景图像学习的前景特征和从多个候选数字图像学习的背景特征来生成搜索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥多比公司,未经奥多比公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910143100.2/2.html,转载请声明来源钻瓜专利网。