[发明专利]基于多模态表征的细粒度图像分类方法有效
申请号: | 201810627958.1 | 申请日: | 2018-06-15 |
公开(公告)号: | CN109002834B | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 漆桂林;徐华鹏;徐康 | 申请(专利权)人: | 东南大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/80;G06V10/774;G06K9/62;G06F16/58;G06N3/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于多模态表征的细粒度图像分类方法,利用知识库的嵌入模型,将知识用分布式的向量表达,结合文本的分布式词嵌入表达形式,从而获取图像分类中标签的语义向量表达。并且设计深度学习模型,分别通过检测网络和分类网络学习图像不同层面的特征,将图像与其对应的分类标签的语义向量表达形式联合映射分类,提高了细粒度图像分类的精确度。 | ||
搜索关键词: | 基于 多模态 表征 细粒度 图像 分类 方法 | ||
【主权项】:
1.一种基于多模态表征的细粒度图像分类方法,其特征在于:该方法包括如下步骤:1)确定识别的领域以及该领域的图像数据集合∈S,其中S表示所有待分类图片,x表示待分类图片,y表示分类标签;分类标签y对应人为构建的视觉属性集合Ai∈A,其中Ai表示图像x的第i个视觉属性,A表示所有图像的视觉属性集合;2)根据分类标签y,从已有的同义词词库和上下文词库中分别抽取y的同义词和上下位词,所有抽取的结果作为领域知识实体;根据所述领域知识实体从知识库中抽取全部三元组知识,根据视觉属性集合A,构建视觉知识三元组与抽取的领域知识库组成最终的知识库;3)利用知识库表示领域的知识嵌入模型,得到分类标签y在知识库空间下的低维向量表达δ1(y);4)利用搜索引擎或者从百科文本中,抽取待识别图像的领域文本;5)利用百科文本训练词嵌入模型,对所述步骤4)中抽取的待识别图像的领域文本进行微调训练,得到分类标签y在文本空间中的向量表达δ2(y);6)设计双层卷积神经网络处理待分类图像,第一层为分类网络FB,第二层为检测网络FA;利用已有的图像数据集初始化训练分类网络FB,分类网络获取图像的全局视觉特征XB;检测网络FA获取图像的局部视觉特征XA,根据下式将两种网络得到的视觉特征通过向量点积运算操作进行融合,得到融合后的视觉特征XAB:XAB=XA⊙XB其中,⊙表示向量点积运算;7)利用物体的边界信息(x,y,h,w)作为检测网络的监督目标,根据下式计算检测网络的平方误差lA:
其中,x,y表示待检测物体的左上角坐标,h,w表示待检测物体的高度和宽度,x′,y′为检测网络预测的物体左上角坐标,h′,w′为检测网络预测的物体的高度和宽度;8)在分类网络FB上添加两层无激活函数的全连接层,处理成映射回归网络,利用图像标签在知识库的嵌入向量δ1(y)和文本空间的嵌入向量δ2(y)作为分类网络FB的监督目标,根据下式计算监督的平方误差lB:
其中向量
和
表示步骤6)融合后的视觉特征XAB经过网络运行得到的最终的视觉特征,M1和M2表示线性映射矩阵;9)利用优化领域常用的误差优化算法训练网络,根据下式将网络训练时的监督目标结合检测网络和分类网络的监督目标组合成L(x,y):L(x,y)=α*lA+lB其中α为超参数,作为两个网络的平衡因子,根据交叉验证方法选择最优的数值,具体计算公式如下:
优化L(x,y)的具体过程为:将整个图像数据集S划分为训练集S1和测试集S2,在S1上优化L(x,y),使得L(x,y)最小化,并且训练的过程中实时在S2上进行收敛性验证,直到测试集上分类准确度收敛稳定。10)对于一个全新的图像x,通过整个网络得到图像的视觉特征
和
利用如下式在候选的Y集合中选择分类结果:![]()
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810627958.1/,转载请声明来源钻瓜专利网。