[发明专利]自动生成用于对象识别的训练数据集在审
申请号: | 201880092391.0 | 申请日: | 2018-12-12 |
公开(公告)号: | CN111971686A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 崔德华;A·塔姆比拉纳姆;钟鸣;张文辉 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 贾丽萍 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 生成 用于 对象 识别 训练 数据 | ||
1.一种用于自动生成用于对象识别的训练数据集的方法,包括:
获得多个对象的简档信息;以及
针对所述多个对象中的每个对象:
基于所述对象的简档信息中包括的所述对象的身份信息,收集与所述对象相关联的初始图像组,
对所述初始图像组进行过滤以获得与所述对象相关联的经过滤的图像组,
通过用所述对象的所述身份信息来标记所述经过滤的图像组中的每个图像,生成与所述对象相对应的训练数据对组,以及
将所述训练数据对组添加到所述训练数据集中。
2.根据权利要求1所述的方法,其中,所述多个对象的所述简档信息是从预先建立的知识图谱获得的。
3.根据权利要求1所述的方法,其中,所述多个对象的所述简档信息是从网络上的一个或多个信息源获得的。
4.根据权利要求1所述的方法,其中,所述收集包括:
通过搜索引擎在网络上搜索与所述对象相关联的初始图像。
5.根据权利要求1所述的方法,其中,所述收集包括:
从至少一个网页识别与所述对象相关联的初始图像。
6.根据权利要求5所述的方法,其中,所述识别包括:
通过命名实体提取算法确定所述至少一个网页是否包括与所述对象相对应的至少一个命名实体;
从所述至少一个网页中提取候选图像;
计算所述候选图像与所述对象的所述简档信息中的简档图像之间的相关性;以及
如果所述相关性满足预先确定的标准,则将所述候选图像确定为与所述对象相关联的初始图像。
7.根据权利要求1所述的方法,其中,所述过滤包括:
从所述初始图像组中滤除噪声图像。
8.根据权利要求7所述的方法,其中,所述滤除包括:对于所述初始图像组中的每个初始图像:
计算下列各项中的至少一项:所述对象的所述简档信息中包括的所述对象的简档图像与所述初始图像之间的第一相关性;以及所述对象的所述身份信息与所述初始图像的描述信息之间的第二相关性;以及
如果所述第一相关性和/或所述第二相关性不满足预先确定的标准,则将所述初始图像确定为噪声图像并从所述初始图像组中移除所述初始图像。
9.根据权利要求7所述的方法,其中,所述滤除包括:
对所述初始图像组执行聚类过程以识别至少一个离群图像;以及
将所述至少一个离群图像确定为噪声图像,并从所述初始图像组中移除所述至少一个离群图像。
10.根据权利要求1所述的方法,还包括:
计算与所述对象相关联的所述经过滤的图像组和与所述多个对象中的另一个对象相关联的另一个经过滤的图像组之间的相关性;以及
如果所述相关性满足预先确定的标准,则将所述对象的所述身份信息与所述另一个对象的身份信息组合成组合的身份信息,并将所述经过滤的图像组和所述另一个经过滤的图像组组合成组合的经过滤的图像组。
11.根据权利要求10所述的方法,其中,所述生成包括:
通过用所述组合的身份信息来标记所述组合的经过滤的图像组中的每个图像,生成与所述对象相对应的所述训练数据对组。
12.根据权利要求1所述的方法,其中,所述过滤包括:
分别生成与所述初始图像组相对应的图像向量组;以及
至少基于所述图像向量组来对所述初始图像组进行过滤。
13.根据权利要求12所述的方法,其中,所述图像向量组是通过对象识别模型生成的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880092391.0/1.html,转载请声明来源钻瓜专利网。