[发明专利]文本到视觉机器学习嵌入技术在审
申请号: | 202010182685.1 | 申请日: | 2020-03-16 |
公开(公告)号: | CN112015940A | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 林哲;S·莫蒂安;P·阿加沃尔;B·法伊塔 | 申请(专利权)人: | 奥多比公司 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/58;G06T11/60;G06N20/00 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 视觉 机器 学习 嵌入 技术 | ||
1.一种在数字媒体机器学习模型训练环境中由计算设备实现的方法,所述方法包括:
由所述计算设备接收多个文本查询,所述多个文本查询被用于发起多次数字图像搜索;
由所述计算设备接收多个数字图像,所述多个数字图像是用户从由所述多次数字图像搜索生成的搜索结果中选择的;
由所述计算设备基于所述多个文本查询和所述多个数字图像生成训练数据集;
由所述计算设备使用所述训练数据集来基于损失函数而使用机器学习训练模型;以及
由所述计算设备使用所述模型来生成后续搜索结果。
2.根据权利要求1所述的方法,其中对所述模型的所述训练基于所述多个文本查询和所述多个数字图像而产生单个统一的文本和数字图像嵌入空间。
3.根据权利要求1所述的方法,其中所述训练数据集的所述生成包括:
从所述多个数字图像中选择正数字图像样本;以及
基于所述正数字图像样本来从所述多个数字图像生成负数字图像样本。
4.根据权利要求3所述的方法,其中所述负数字图像样本的所述生成包括:
通过不包括来自所述多个数字图像中的、具有相应的所述文本查询的至少一个文本项的数字图像来生成所述多个数字图像的子集,所述至少一个文本项不包括停用词,所述至少一个文本项还被包括在与所述正数字图像样本相关联的相应的所述文本查询中;以及
从所述子集中选择所述负数字图像样本。
5.根据权利要求1所述的方法,其中所述训练数据集的所述生成包括:生成基于标题的训练数据集,所述基于标题的训练数据集具有与对应的多个数字图像相关联的标题。
6.根据权利要求5所述的方法,其中所述基于标题的训练数据集的所述生成包括:
从所述对应的多个数字图像中选择正数字图像样本;以及
基于所述正数字图像样本,从所述对应的多个数字图像生成负数字图像样本。
7.根据权利要求6所述的方法,其中所述负数字图像样本的所述生成包括:
通过不包括来自所述对应的多个数字图像中的、具有每个文本项的数字图像来生成所述对应的多个数字图像的子集,所述文本项不包括停用词,所述文本项被包括在与所述正数字图像样本相关联的所述标题中;以及
从所述子集中选择所述负数字图像样本。
8.根据权利要求1所述的方法,其中所述训练包括:从正数字图像样本生成正图像嵌入,从与所述正数字图像样本相关联的所述文本查询生成文本嵌入,以及从负数字图像样本生成负图像嵌入。
9.根据权利要求8所述的方法,其中所述损失函数是三元组损失函数,所述三元组损失函数与所述文本嵌入和所述负图像嵌入之间的损失分离地解决所述文本嵌入和所述正图像嵌入之间的损失。
10.一种在数字媒体机器学习模型训练环境中的系统,包括:
训练数据生成模块,所述训练数据生成模块至少部分地被实现在硬件中以生成训练数据集,所述训练数据生成模块包括:
正样本生成模块,所述正样本生成模块被配置为从多个数字图像中选择正数字图像样本;以及
负样本生成模块,所述负样本生成模块被配置为:
生成所述多个数字图像的子集,所述子集不包括来自所述多个数字图像中的、具有至少一个文本项的数字图像,所述至少一个文本项不包括停用词,所述至少一个文本项还被包括在与所述正数字图像样本相关联的文本中;以及
从所述子集中选择负数字图像样本;
机器学习训练模块,所述机器学习训练模块至少部分地被实现在硬件中以基于所述训练数据集来使用损失函数训练模型作为机器学习的一部分。
11.根据权利要求10所述的系统,其中所述文本描述文本查询,所述文本查询被用于对所述多个数字图像中的对应数字图像进行定位作为搜索的一部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥多比公司,未经奥多比公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010182685.1/1.html,转载请声明来源钻瓜专利网。