[发明专利]基于多模态表征的细粒度图像分类方法有效
申请号: | 201810627958.1 | 申请日: | 2018-06-15 |
公开(公告)号: | CN109002834B | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 漆桂林;徐华鹏;徐康 | 申请(专利权)人: | 东南大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/80;G06V10/774;G06K9/62;G06F16/58;G06N3/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 表征 细粒度 图像 分类 方法 | ||
本发明公开了一种基于多模态表征的细粒度图像分类方法,利用知识库的嵌入模型,将知识用分布式的向量表达,结合文本的分布式词嵌入表达形式,从而获取图像分类中标签的语义向量表达。并且设计深度学习模型,分别通过检测网络和分类网络学习图像不同层面的特征,将图像与其对应的分类标签的语义向量表达形式联合映射分类,提高了细粒度图像分类的精确度。
技术领域
本发明涉及一种基于多模态表征的细粒度图像分类技术,属于计算机视觉技术领域。
背景技术
在计算机视觉研究领域,图像分类作为一个重要的研究内容,已经在众多现实场景中得到应用,如自动驾驶中的道路场景识别,安防领域中的人脸识别等。在图像识别的任务中,细粒度图像分类越发得到重视。细粒度图像分析任务相对通用图像(General/Generic Images)任务的区别和难点在于其图像所属类别的粒度更为精细,也就是细粒度分类最大的特点:类内差别大,类之间差别小。这些精细分类在图像视觉上相似度非常高,需要提取其中细粒度的特征来区分,但是在细粒度类别标记时一般需要大量的领域知识,因此标注工作量大,并且对于标记人员的要求也比较高,因此如何设计系统识别图像类别,是一个紧迫和艰巨任务。
当前图像分类中主要涉及到对高区分度的物体进行分类例如:马和猫,这些图像具有很强的视觉区分度,这些图像中相似成分更多是偶然性的,而非系统的相似。但是相对于同种类别中不同图像不仅具有高度的轮廓相似度,而且仅在某些细微的部位有颜色可见形式不同,也就是这种相似成分非常高,并且这些图像相似更多的是系统性的,不容易区分的。另一方面,同一物体的不同光照,不同姿势下的在图像上的表现都有很大的差别,细粒度图像分类的难点,就是如何在不同物种的事物,在视觉的各种不同侧面显示极高的视觉相似度,挖掘其中细微的图像差异,并且保证对图像的正确分类。如之前所述,在细粒度图像分类中,由于将同类数据细化到不同物种,类别越精细,标注数据的获取越困难,如何在少量的标注数据上训练网络,使得网络能够得到好的分类效果,是值得思考的问题。
随着深度学习技术不断进步和普及,细粒度图像识别在计算机视觉领域成为了一个研究热点。由于细粒度分类中物体的差异仅体现在细微之处。如何有效地对前景对象进行检测分类,并从中发现重要的局部区域(part location)信息,也就是更具区分效果的特征,成为了细粒度图像分类算法要解决的关键问题。对细粒度分类模型,可以按照其使用的监督信息的强弱,分为基于强监督信息的分类模型和基于弱监督信息的分类模型两种大类,,另外还有一种工作是引入辅助信息实现图像识别。这些方法主要内容如下:
(1)所谓“强监督细粒度图像分类模型”是指:在模型训练时,为了获得更好的分类精度,除了图像的类别标签外,还使用了物体标注框(Object Bounding Box)和部位标注点(Part Annotation,同时对应着attribute)等额外的人工标注信息,并且在测试的阶段同时,使用这些标注信息。
(2)思路同强监督分类模型类似,弱监督分类模型同时也需要借助全局和局部信息来做细粒度级别的分类。而区别在于,弱监督细粒度分类希望在不借助part annotation的情况下,也可以做到较好的局部信息的捕捉。该方法主要通过在训练阶段通过检测网络(Detection Network),检测关键的局部位置以及相关的点,从而在测试的时候只使用物体级别的标注实现整个识别过程。
(3)引入文本信息的模型主要考虑到,文本中有很多描述待分类物体的文本数据,这些数据中会有大量的描述信息,这些信息很多时候是和分类相关的,有时候能够很好的区分待测物体的关键点,如何有效利用这些文本信息成为该类方法主要考虑的问题。
目前,经过大量的调查和研究,细粒度图像分类在理论上已经取得了长足的进步。考虑到文本和知识库中提供了大量的图像标签的语义信息以及相关的结构化信息,以及文本中具有分类物体大量描述信息,如何将这些不同模态的信息相辅相成,必然成为一个有趣的研究方向,将为图像分类任务提供了更多非视觉信息支持。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810627958.1/2.html,转载请声明来源钻瓜专利网。