[发明专利]基于多模态表征的细粒度图像分类方法有效
申请号: | 201810627958.1 | 申请日: | 2018-06-15 |
公开(公告)号: | CN109002834B | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 漆桂林;徐华鹏;徐康 | 申请(专利权)人: | 东南大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/80;G06V10/774;G06K9/62;G06F16/58;G06N3/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 表征 细粒度 图像 分类 方法 | ||
1.一种基于多模态表征的细粒度图像分类方法,其特征在于:该方法包括如下步骤:
1)确定识别的领域以及该领域的图像数据集合x,y∈S,其中S表示所有待分类图片,x表示待分类图像,y表示分类标签;分类标签y对应的人为构建的视觉属性集合Ai∈A,其中Ai表示图像x的第i个视觉属性,A表示所有图像的视觉属性集合;
2)根据分类标签y,从已有的同义词词库和上下文词库中分别抽取y的同义词和上下位词,所有抽取的结果作为领域知识实体;根据所述领域知识实体从知识库中抽取全部三元组知识,根据视觉属性集合A,构建视觉知识三元组与抽取的领域知识库组成最终的知识库;
3)利用知识库表示领域的知识嵌入模型,得到分类标签y在知识库空间下的低维向量表达δ1(y);
4)利用搜索引擎或者从百科文本中,抽取待识别图像的领域文本;
5)利用百科文本训练词嵌入模型,对所述步骤4)中抽取的待识别图像的领域文本进行微调训练,得到分类标签y在文本空间中的向量表达δ2(y);
6)设计双层卷积神经网络处理待分类图像,第一层为分类网络FB,第二层为检测网络FA;利用已有的图像数据集初始化训练分类网络FB,分类网络获取图像的全局视觉特征XB;检测网络FA获取图像的局部视觉特征XA,根据下式将两种网络得到的视觉特征通过向量点积运算操作进行融合,得到融合后的视觉特征XAB:
XAB=XA⊙XB
其中,⊙表示向量点积运算;
7)利用物体的边界信息(a,b,h,w)作为检测网络的监督目标,根据下式计算检测网络的平方误差lA:
其中,a,b表示待检测物体的左上角坐标,h,w表示待检测物体的高度和宽度,a′,b′为检测网络预测的物体左上角坐标,h′,w′为检测网络预测的物体的高度和宽度;
8)在分类网络FB上添加两层无激活函数的全连接层,处理成映射回归网络,利用图像标签在知识库的嵌入向量δ1(y)和文本空间的嵌入向量δ2(y)作为分类网络FB的监督目标,根据下式计算监督的平方误差lB:
其中向量和表示步骤6)中的视觉特征XAB经过两层神经网络全连接层映射学习得到的最终的视觉特征,M1和M2表示线性映射矩阵,T表示矩阵的转置操作;
9)利用优化领域误差优化算法训练网络,根据下式将网络训练时的监督目标结合检测网络和分类网络的监督目标组合成L(x,y):
L(x,y)=α*lA+lB
其中α为超参数,作为两个网络的平衡因子,根据交叉验证方法选择最优的数值,具体计算公式如下:
优化L(x,y)的具体过程为:将整个图像数据集S划分为训练集S1和测试集S2,在S1上优化K(x,y),使得L(x,y)最小化,并且训练的过程中实时在S2上进行收敛性验证,直到测试集上分类准确度收敛稳定;
10)对于一个全新的图像x,通过两层神经网络全连接层映射学习得到图像的视觉特征和利用如下式在候选的Y集合中选择分类结果:
其中T表示矩阵转置操作,j为数值下标,Mj表示线性映射矩阵。
2.如权利要求1所述的一种基于多模态表征的细粒度图像分类方法,其特征在于:所述步骤3)中的知识嵌入模型为TransR模型。
3.如权利要求1所述的一种基于多模态表征的细粒度图像分类方法,其特征在于:所述步骤4)中的百科文本为维基百科中实体页面对应的文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810627958.1/1.html,转载请声明来源钻瓜专利网。