[发明专利]一种弱监督的深度上下文感知图像表征方法及系统有效

申请号：	202011587005.0	申请日：	2020-12-28
公开（公告）号：	CN112667841B	公开（公告）日：	2023-03-24
发明（设计）人：	刘萌;田传发;周迪;齐孟津;聂秀山	申请（专利权）人：	山东建筑大学
主分类号：	G06F16/583	分类号：	G06F16/583;G06F16/55;G06V10/77;G06V10/764;G06V10/82;G06N3/0464;G06N3/0895
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	黄海丽
地址：	250101 山东省***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种监督深度上下文感知图像表征方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种弱监督的深度上下文感知图像表征方法，其特征是，包括：

获取待处理图像；

训练后的图像编码器，对待处理图像进行表征提取，提取出基础视觉表征；基于基础视觉表征，生成上下文强化视觉表征；对上下文强化视觉表征映射为哈希向量；从而生成蕴含细粒度视觉语义信息的图像表征；

对哈希向量，进行二值化处理，得到待处理图像的哈希表征；

所述图像编码器，包括：

依次连接的ResNet-50网络、自注意力机制模块、求和单元、平均池化层和多层感知机网络；其中，ResNet-50网络作为图像编码器的输入端，多层感知机网络作为图像编码器的输出端；

所述ResNet-50网络，用于对待处理图像进行表征提取，提取出基础视觉表征；

采用预训练的ResNet-50网络作为基础视觉表征提取模型的主干网络，输入一张224x224x3维的图像，通过ResNet-50网络的Conv1、Conv2_x、Conv3_x、Conv4_x和Conv5_x这5层，最终输出7x7x2048维的特征图，将过程总结如下：

X_i＝φ(I_i),

其中，φ表示ResNet-50网络去除最后一层全连接层的部分，表示提取的基本视觉表征；特征图中的每个像素对应于原始输入图像中的一个区域；

所述自注意力机制模块，用于捕获基础视觉表征的特征图上每一个点的上下文信息，得到上下文强化后的区域表征矩阵；

利用自注意力机制捕获特征图上每一个点的上下文信息，即

其中，为将X_i维度变形后的结果，为学习的注意力权重矩阵，为上下文强化后的区域表征矩阵；

所述求和单元，用于将上下文强化后的区域表征与基础视觉表征相加，得到增强后的区域特征；

所述平均池化层，用于对增强后的区域特征进行融合得到上下文强化的视觉表征；

选择平均池化操作将增强后的区域特征融合为一个视觉表征向量；平均池化操作表示为：

其中，为上下文强化的视觉表征，avg_pooling表示平均池化操作；

所述多层感知机网络，用于对上下文强化的视觉表征进行映射为哈希向量；

分别利用一个多层感知机网络将上下文强化视觉表征映射为维度为L的哈希向量隐藏层的定义如下：

其中，θ₁和θ₂分别对应Relu和sigmoid激活函数，W_l和b_l(l∈{1,2})分别表示学习的参数矩阵和向量；

所述训练后的图像编码器，训练步骤包括：

构建训练集；所述训练集包括已知用户标签的图像；

将训练集中的图像作为图像编码器的输入值，将训练集中的已知标签的表征向量作为图像编码器的输出值，对图像编码器进行训练；

当图像编码器的总损失函数达到最小值时，停止训练，得到训练后的图像编码器；

所述已知标签的表征向量，获取步骤包括：

对训练集图像的已知标签，采用标签编码器进行编码处理，得到已知标签的表征向量；

所述采用标签编码器进行编码处理，具体步骤包括：

将与图像对应的每一个标签信息采用word2vec工具得到词向量编码；

对所有的词向量编码，进行平均池化处理，得到已知标签的表征向量；

所述图像编码器的总损失函数，包括：量化损失函数、成对损失函数、铰链损失函数和辨别损失函数；

所述量化损失函数，旨在使图像编码器输出哈希向量的元素值接近于0或1；

量化损失：

其中，I是维度为d且值为1的向量，N为训练集中图像数目，为图像编码器输出的训练集中第i张图像的哈希向量，L表示哈希码长度；

所述成对损失函数，旨在保证标签表征相似的图像对之间具有相似的哈希码表征；成对损失：

其中，为图像编码器输出的训练集中第i张图像的哈希向量，为图像编码器输出的训练集中第j张图像的哈希向量，t_i为训练集中第i张图像的已知标签表征，t_j为训练集中第j张图像的已知标签表征，L表示哈希码长度，N为训练集中图像数目；

所述铰链损失函数，为了消除图像和文本模态间语义鸿沟，铰链损失迫使输入匹配的图像-标签对的表征相近，反之亦然；

铰链损失：

其中，θ₃为Tanh激活函数，W₃和b₃为学习参数，的维数与标签表征一致，m为预定义参数，t_i为训练集中第i张图像的已知标签表征，t_j为训练集中第j张图像的已知标签表征，N为训练集中图像数目；

所述辨别损失函数，迫使上下文强化的图像表征x_i准确地重新生成相应的标签信息，从而确保图像表征的区分性，同时提高图像哈希表征的质量；

辨别损失：

其中，L_c为标签数目，p_ic为第i个图像包含第c个标签的预测概率值，y_ic为真实标注结果，即第i个图像包含第c个标签，它的值为1，N为训练集中图像数目；

所述图像编码器的总的损失函数为：

L＝λ₁L₁+L₂+λ₃L₃+λ₄L₄

其中，λ₁，λ₃，λ₄为平衡损失函数的超参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东建筑大学，未经山东建筑大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011587005.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于污水处理的防控药剂
下一篇：网格化布局的工作流程实现方法、系统及介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种弱监督的深度上下文感知图像表征方法及系统有效

专利文献下载