[发明专利]合成感知数字图像搜索在审
申请号: | 201910143100.2 | 申请日: | 2019-02-26 |
公开(公告)号: | CN110516096A | 公开(公告)日: | 2019-11-29 |
发明(设计)人: | 沈晓辉;林哲;K·K·萨恩卡瓦利;赵恒双;B·L·普里斯 | 申请(专利权)人: | 奥多比公司 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/58;G06F16/53;G06K9/34;G06K9/62 |
代理公司: | 11256 北京市金杜律师事务所 | 代理人: | 酆迅<国际申请>=<国际公布>=<进入国 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数字图像 三元组 感知 卷积神经网络 合成 捕获 搜索 数字图像获取 图像搜索系统 背景场景 机器学习 前景对象 双流 嵌入 联合 学习 | ||
1.一种在数字媒体合成感知数字图像搜索环境中的系统,包括:
背景特征机器学习系统,至少部分地以至少一个计算设备的硬件实现,以使用机器学习从数字图像中提取背景特征;
前景特征机器学习系统,至少部分地以所述至少一个计算设备的硬件实现,以使用机器学习从多个候选数字图像中提取前景特征;
得分计算模块,至少部分地以所述至少一个计算设备的硬件实现,以基于来自所述数字图像的提取的所述背景特征和来自所述多个候选数字图像的提取的所述前景特征,通过特征嵌入来计算得分;以及
搜索模块,至少部分地以所述至少一个计算设备的硬件实现,以基于计算出的所述得分来输出搜索结果。
2.根据权利要求1所述的系统,其中所述背景特征机器学习系统由卷积神经网络实现,并且所述前景特征机器学习系统由另一卷积神经网络实现。
3.根据权利要求1所述的系统,还包括:类别特征机器学习系统,所述类别特征机器学习系统至少部分地以所述至少一个计算设备的硬件实现,以从包括文本的类别数据生成类别特征,所述文本描述所述数字图像。
4.根据权利要求3所述的系统,其中所述类别特征是使用机器学习形成的所述文本的向量表示。
5.根据权利要求3所述的系统,其中所述类别特征被嵌入到所述背景特征和所述前景特征中,并且由所述得分计算模块使用以计算所述得分。
6.根据权利要求5所述的系统,其中所述嵌入是使用相应的多模紧凑双线性池化(MCB)模块来执行的。
7.一种在数字媒体环境中由计算设备实现的方法,所述方法包括:
由所述计算设备从单个数字图像中提取正前景数字图像和背景数字图像;
由所述计算设备通过填充所述背景数字图像中的区域,来生成正背景数字图像,所述前景数字图像是从所述背景数字图像中提取的;
由所述计算设备获得负前景数字图像;以及
由所述计算设备,基于所述正前景数字图像、所述正背景数字图像和所述负前景数字图像,联合使用损失函数来训练背景特征机器学习系统和前景特征机器学习系统。
8.根据权利要求7所述的方法,还包括:从类别数据生成类别特征,所述类别特征作为使用机器学习形成的文本的向量表示,所述类别数据包括所述文本,并且其中所述训练至少部分地基于所述类别特征。
9.根据权利要求7所述的方法,其中所述填充包括形成矩形,所述矩形具有与在所述数字图像中设置的所述前景数字图像相对应的尺寸、纵横比或位置。
10.根据权利要求7所述的方法,还包括计算所述背景数字图像的颜色的颜色平均值,所述前景数字图像是从所述背景数字图像中提取的,并且其中所述填充使用颜色平均值来填充所述区域。
11.根据权利要求7所述的方法,其中所述损失函数是三元组损失函数。
12.根据权利要求7所述的方法,还包括基于所述正前景数字图像来检索附加的正前景数字图像。
13.根据权利要求12所述的方法,其中所述检索至少部分地基于所述正前景数字图像的语义情境或形状。
14.根据权利要求12所述的方法,其中所述训练是基于所述附加的正前景数字图像以及所述正背景数字图像,联合使用所述损失函数来执行的。
15.根据权利要求7所述的方法,还包括基于所述正背景数字图像来检索附加的正背景数字图像。
16.根据权利要求15所述的方法,其中所述检索至少部分地基于所述正背景数字图像的语义情境或形状。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥多比公司,未经奥多比公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910143100.2/1.html,转载请声明来源钻瓜专利网。