[发明专利]基于多模态表征的细粒度图像分类方法有效

申请号：	201810627958.1	申请日：	2018-06-15
公开（公告）号：	CN109002834B	公开（公告）日：	2022-02-11
发明（设计）人：	漆桂林;徐华鹏;徐康	申请（专利权）人：	东南大学
主分类号：	G06V10/764	分类号：	G06V10/764;G06V10/80;G06V10/774;G06K9/62;G06F16/58;G06N3/04
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	柏尚春
地址：	211100 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于多模态表征细粒度图像分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多模态表征的细粒度图像分类方法，其特征在于：该方法包括如下步骤：

1)确定识别的领域以及该领域的图像数据集合x,y∈S，其中S表示所有待分类图片，x表示待分类图像，y表示分类标签；分类标签y对应的人为构建的视觉属性集合A_i∈A，其中A_i表示图像x的第i个视觉属性，A表示所有图像的视觉属性集合；

2)根据分类标签y，从已有的同义词词库和上下文词库中分别抽取y的同义词和上下位词，所有抽取的结果作为领域知识实体；根据所述领域知识实体从知识库中抽取全部三元组知识，根据视觉属性集合A，构建视觉知识三元组与抽取的领域知识库组成最终的知识库；

3)利用知识库表示领域的知识嵌入模型，得到分类标签y在知识库空间下的低维向量表达δ₁(y)；

4)利用搜索引擎或者从百科文本中，抽取待识别图像的领域文本；

5)利用百科文本训练词嵌入模型，对所述步骤4)中抽取的待识别图像的领域文本进行微调训练，得到分类标签y在文本空间中的向量表达δ₂(y)；

6)设计双层卷积神经网络处理待分类图像，第一层为分类网络F_B，第二层为检测网络F_A；利用已有的图像数据集初始化训练分类网络F_B，分类网络获取图像的全局视觉特征X_B；检测网络F_A获取图像的局部视觉特征X_A，根据下式将两种网络得到的视觉特征通过向量点积运算操作进行融合，得到融合后的视觉特征X_AB：

X_AB＝X_A⊙X_B

其中，⊙表示向量点积运算；

7)利用物体的边界信息(a,b,h,w)作为检测网络的监督目标，根据下式计算检测网络的平方误差l_A：

其中，a,b表示待检测物体的左上角坐标，h,w表示待检测物体的高度和宽度，a′,b′为检测网络预测的物体左上角坐标，h′,w′为检测网络预测的物体的高度和宽度；

8)在分类网络F_B上添加两层无激活函数的全连接层，处理成映射回归网络，利用图像标签在知识库的嵌入向量δ₁(y)和文本空间的嵌入向量δ₂(y)作为分类网络F_B的监督目标，根据下式计算监督的平方误差l_B：

其中向量和表示步骤6)中的视觉特征X_AB经过两层神经网络全连接层映射学习得到的最终的视觉特征，M₁和M₂表示线性映射矩阵，T表示矩阵的转置操作；

9)利用优化领域误差优化算法训练网络，根据下式将网络训练时的监督目标结合检测网络和分类网络的监督目标组合成L(x,y)：

L(x,y)＝α*l_A+l_B

其中α为超参数，作为两个网络的平衡因子，根据交叉验证方法选择最优的数值，具体计算公式如下：

优化L(x,y)的具体过程为：将整个图像数据集S划分为训练集S₁和测试集S₂，在S₁上优化K(x,y)，使得L(x,y)最小化，并且训练的过程中实时在S₂上进行收敛性验证，直到测试集上分类准确度收敛稳定；

10)对于一个全新的图像x，通过两层神经网络全连接层映射学习得到图像的视觉特征和利用如下式在候选的Y集合中选择分类结果：

其中T表示矩阵转置操作，j为数值下标，M_j表示线性映射矩阵。