[发明专利]一种基于本体的半监督图像场景语义深化方法在审
申请号: | 202010995864.7 | 申请日: | 2020-09-21 |
公开(公告)号: | CN112085122A | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 陈南希;肖天;刘李黎;张晓林 | 申请(专利权)人: | 中国科学院上海微系统与信息技术研究所 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/34;G06F16/36 |
代理公司: | 上海智信专利代理有限公司 31002 | 代理人: | 邓琪 |
地址: | 200050 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 本体 监督 图像 场景 语义 深化 方法 | ||
本发明提供一种基于本体的半监督图像场景语义深化方法,包括:检测出图像中的实体,所述实体包括目标实体;得到目标实体的场景信息,该场景信息至少包括目标实体的组成部分;将场景信息与实体本体库中的下位词进行匹配,并根据匹配结果对目标实体进行重命名,从而实现对目标实体的类别的语义深化。使用本发明的方法能够在不提供新的细分类图像数据集的情况下将场景中检测到的实例类别进一步细化,达到深化场景语义描述的效果,同时对于关联谓词检测任务,可以消除不合逻辑的关联谓词,判定从属实体的归属,从而提高谓词检测精度。
技术领域
本发明属于图像识别领域,具体涉及一种基于本体的半监督图像场景语义深化方法。
背景技术
目标检测得到的语义信息普遍依赖于监督学习,而目前图像数据集标注存在数据不平衡的情况,即某些精细标注的目标图像样本数不够。现有的图像领域的数据集中,往往存在语义标注浅显,可识别类别数量低等问题。VOC数据集中仅包含20种类别,MS COCO数据集中仅包含80种类别。而Visual Genome数据集中虽然包含近8万2千种实体,可其中存在十分显著的类别不均衡现象,大约7万5千类别的实体数量小于10。虽然Visual Genome数据集具有细分类别的语义标注,但由于这些类别的标注样本较少导致目标检测算法难以利用这些有细分类的标注数据。
同时,基于目标检测的目标间谓词关系识别算法精度也较为低下。由于上文提到的一些问题,现有的关系检测算法基本是使用Visual Genome数据集的子集,即对原始Visual Genome数据集进行了处理,仅提取出少部分实体以及关系来进行模型的训练。在现有的端到端关系检测算法(即,输入图片,输出图中实体和实体间关系)中,主流的方式是2-stage的方法,即先进行目标检测,再根据目标检测的结果进行关系检测,这些2-stage 的方法将会累积预测实体的检测框、预测实体的类别和预测实体间关系谓语的检测错误,导致存在大量误检测的现象。
在论文“Graphical Contrastive Losses for Scene Graph Parsing”中,作者建立了一种新的损失函数来避免近端关系混淆以及实体实例混淆。其中,近端关系混淆以及实体实例混淆是关系检测最终结果出现的一些错误,前者是对实体间的关系做出了错误的预测,后者是对关系对中的实体做出了错误的预测。这些错误都是由“预测实体的检测框、预测实体的类别和预测实体间关系谓语的检测错误”累加导致的。该损失函数由三部分组成:空间坐标损失,语义信息损失,视觉信息损失。该方法可以避免一定的误检测,但所检测出的语义信息仅限于数据集所标注的语义类别范围内。
在论文“YOLO9000:Better,Faster,Stronger”中,由于缺乏细分类别目标检测数据集,作者将目标检测数据集MS coco与图像分类数据集ImageNet进行联合训练,其中图像分类数据集仅用来调整识别部分的神经网络参数,并不参与检测框生成的参数调整。此方法虽然降低了对于多类别目标检测数据集的依赖,但其仅仅是将依赖转移到了图像分类数据集上,并未从根本上解决依赖细分类别数据集的问题。
在申请号为CN201911341230.3的专利文件“一种基于自适应聚类学习的视觉关系检测方法”中,公开了一种基于自适应聚类学习的视觉关系检测方法,通过潜在关联挖掘对不同子类的视觉关系进行细粒度识别,提高了视觉关系检测的精度。但仍无法对实体进行语义深化。
综上,目前现存的方法主要解决近端关系混淆以及实体实例混淆问题,或通过潜在关联挖掘对不同子类的视觉关系进行细粒度识别。但均无法达到实体语义深化的效果。
发明内容
本发明针对以上问题,提出了一种基于本体的半监督图像场景语义深化方法,以在不提供新的图像数据集的情况下将场景中检测到的实例类别进一步细化,达到深化场景语义描述的效果。
为了实现上述目的,本发明提供一种基于本体的半监督图像场景语义深化方法,包括:
S1,检测出图像中的实体,所述实体包括目标实体;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院上海微系统与信息技术研究所,未经中国科学院上海微系统与信息技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010995864.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:背光模组及电子设备
- 下一篇:健康状态识别一体机及其控制系统
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序