[发明专利]在机器学习中为图像中的对象标注创建训练数据可变性在审
申请号: | 202080029506.9 | 申请日: | 2020-03-21 |
公开(公告)号: | CN113711275A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 丹尼尔·德格雷戈里奥;路易吉·由斯特凡诺 | 申请(专利权)人: | 博洛尼亚大学 |
主分类号: | G06T7/50 | 分类号: | G06T7/50;G06T7/73;G06K9/00;G06K9/32;G06N3/08;B25J9/16;G06K9/46 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 杨媛媛 |
地址: | 意大利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器 学习 图像 中的 对象 标注 创建 训练 数据 可变性 | ||
描述了一种图像标注系统(100),系统包括支撑件(2)、数码相机(1)、处理和控制装置(5)以及数字显示器(4);支撑件(2)用于待标注对象(3);数码相机(1)配置为捕获包括所述对象(3)的场景的多个图像;处理和控制装置(5)配置为接收所述图像并生成与所述对象(3)相关联的相应标注数据(21‑24,L1‑L4);数字显示器(4)与所述支撑件(2)相关联并连接到处理和控制装置(5)以选择性地显示从包括以下图像的组中选择的附加图像(7‑13):针对所述多个图像为背景形式的并在场景中引入一定程度的可变性的第一图像(7‑11);指示由用户将所述对象(3)放置在支撑件(2)上的位置和/或方向的第二图像(12);由数码相机(1)捕获并提供给处理和控制装置(5)以评估数码相机(1)相对于数字显示器(4)的位置的第三图像(13);由数码相机(1)捕获并提供给处理和控制装置(5)以评估对象(3)的位置、方向、3D形状中至少一项的第四图像。
技术领域
本发明涉及一种图像标注系统。
背景技术
机器学习系统,例如神经网络,必须使用数据进行训练,并且此类数据的可用性至关重要。特别是数据驱动模型,在该模型中基本数据类型是图像。根据已知技术,用于训练此类模型的图像是由人类手工标注的。
图像标注意味着生成内容并将其与图像相关联。
例如,内容可以是围绕图像中存在的感兴趣对象的一系列数字框。标注的进一步示例是不同地“着色”每个像素或以与场景的内容(例如,其中的对象)密切相关的方式提供文本描述。
标注图像的示例如2017年A.Redmon等人在IEEE计算机视觉和模式识别会议上的文件《YOLO9000:更好、更快、更强》(A.Redmon et al.,《YOLO9000:better,faster,stronger》IEEE conference on computer vision and pattern recognition,2017)(http://pjreddie.com/yolo9000/)所示。
此外,已经注意到,为了使用感兴趣对象的标注图像正确地训练数据驱动模型,有必要重新排列对象或更改放置对象的图像背景,因此在场景中引入了一定程度的可变性。在数据集中引用这种可变性,特别是对于合成生成的图像,在文献中称为域随机化。
2017年P.Tobin等人在关于智能机器人和系统(Intelligent Robots andSystems,IROS)的IEEE/RSJ国际会议上的文件《将深度神经网络从模拟转移到现实世界的域随机化》(P.Tobin et al.,《Domain Randomization for Transferring Deep NeuralNetworks from Simulation to the Real World》IEEE/RSJ International Conferenceon Intelligent Robots and Systems(IROS),2017)阐明了域随机化是训练有效模型的基础。特别地,在上述文件中,域随机化与合成数据一起使用,即模拟真实场景的3D渲染器。
2018年D.De Gregorio等人在附录-1中的文件《循环:利用通用对象检测器进行方向预测》(D.De Gregorio et al.,《LOOP:Leveraging on a generic Object detectorfor Orientation Prediction》Annex-1,2018)中也讨论了域随机化,其中,此技术应用于实际数据。
申请人已经注意到,训练最新的深度学习模型可能需要数以千计的标注图像,并且每当工作条件发生变化(例如感兴趣对象、场景的照明条件、台面纹理等)时,有必要重新训练/重新配置这些模型。例如,考虑一种情况,其中必须参考十二个不同的感兴趣对象标注五千个图像。普通用户大概需要四分钟才能画出图像中的十二个框(考虑到每个框都要仔细选择所属类别);总工时将超过300小时(4分钟×5000)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于博洛尼亚大学,未经博洛尼亚大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080029506.9/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序