[发明专利]一种基于知识蒸馏的跨模态图像美学质量评价方法有效
申请号: | 202110020656.X | 申请日: | 2021-01-07 |
公开(公告)号: | CN112613303B | 公开(公告)日: | 2023-02-21 |
发明(设计)人: | 牛玉贞;甘伟泽;陈志贤;刘文犀 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/242;G06F40/284;G06F40/30;G06V30/18;G06V30/19;G06N3/045;G06N3/08 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 陈明鑫;蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 蒸馏 跨模态 图像 美学 质量 评价 方法 | ||
1.一种基于知识蒸馏的跨模态图像美学质量评价方法,其特征在于,包括以下步骤:
步骤S1、设计图文多模态美学质量评价的教师网络;
步骤S2、设计用于图像美学质量评价的学生网络;
步骤S3、设计用于进行对抗训练的判别器网络;
步骤S4、设计用于训练教师网络和学生网络的损失函数;
步骤S5、使用损失函数对步骤S1、S2及S3所设计网络进行训练;
步骤S6、将用于测试的图像输入训练好的学生网络预测其美学质量;
所述步骤S1具体包括以下步骤:
步骤S11、使用图像美学质量评价数据集AVA,对图像进行预处理,对于每一幅图像,先缩放到256×256,然后随机裁剪成224×224;预处理后的图像输入到特征提取模块,特征提取模块使用Resnet50网络中的conv1_x,conv2_x,…,conv5_x层,提取conv5_x层的特征,记为ψs;
步骤S12、美学文本数据集AVA-COMMENTS中包含用户对数据集AVA中图像的评论,使用美学文本数据集AVA-COMMENTS,对美学文本数据进行预处理:首先,使用标准的自然语言处理技术清洗文本噪声;然后,将每个文本样本先分句,再分词,具体即将每幅图像对应的评论文本中的句子数量统一为S,每个句子包含的单词数量统一为T;
步骤S13、设计一个提取文本特征的双向门控循环单元网络BiGRU;
首先,对于由单词序列wit组成的句子,wit表示第i个句子中的第t个单词,利用GloVe字典的映射关系We,把单词转化为词向量xit,公式如下所示:
xit=Wewit,t∈[1,T],i∈[1,S]
其中,S是每幅图像对应的句子数量,T是句子中的单词数量;
然后,使用BiGRU网络对文本中的各个词向量xit进行编码,BiGRU网络从词向量的两个方向汇总信息来获取单词的表示,因此能够将上下文信息合并到单词的表示中,获得隐藏层输出,公式如下所示:
式中,表示对于第i个句子,BiGRU网络从xi1到xiT的方向进行处理,表示对于第i个句子,BiGRU网络从xiT到xi1的方向进行处理;
对于第i个句子中的一个给定的单词向量xit,经过BiGRU网络编码后,获得了一种新的表示hit包含了xit上下文两个方向的信息;然后对第i个句子中的所有单词的表示hit直接求和以形成句子向量si,如下所示:
si=∑thit,t∈[1,T]
再将句子向量拼接在一起得到文本特征ψt,维度为(S,Dt),也就是每个文本样本有S句评论,每句评论是Dt维;
步骤S14、设计一个自注意力模块;对于第i个图像文本对,图像Ii来自于AVA,文本Ci是AVA-COMMENTS中与图像Ii对应的评论文本;通过上述步骤获得相应图像文本对所对应的图像特征ψs和文本特征ψt,分别记为和
文本特征经过1个全连接层完成线性变换,相当于经过1个嵌入权重变换Wt,得到矩阵维度为(S,D't),公式如下所示:
其中,表示文本特征经过线性变换后的特征矩阵;
图像特征的维度是(H,W,Dm),经过1个全连接层完成线性变换,相当于经过一个嵌入权重变换Wm,转换成维度为(H×W,D'm)的矩阵,公式如下所示:
其中,表示图像特征经过线性变换后的特征矩阵;
对和两个矩阵做矩阵乘法,也就是内积,内积结果体现向量之间的相似度,内积结果大说明句子和图像区域响应程度高,得到维度为(H×W,S)的相似度矩阵公式如下所示:
其中,上标T表示转置;
对于维度为(H×W,S)相似度矩阵首先,按照行进行softmax归一化,表示当前文本与所有图像区域的归一化相关性,用转置后的维度为(D'm,H×W)的与归一化后的相似度矩阵做矩阵乘法,也就是将相似度矩阵作用到图像的所有对应区域的D'm向量上,将矩阵乘法的结果转置后得到维度为(S,D'm)的特征,代表的是每句文本和所有图像特征的加权平均值,最后与输入的文本特征相加,得到增强的文本特征
同时,对于维度为(H×W,S)相似度矩阵按照列归一化,表示当前图像区域对所有文本的归一化相关性,再与维度为(S,D't)的做矩阵乘法,也就是将相似度矩阵作用到了所有文本的D't向量上;得到维度为(H×W,D't)的特征,代表的是每个图像区域和所有文本特征的加权平均值,最后与输入的图像特征相加,得到增强的图像特征
步骤S15、使用双线性池化MFB来高效地融合多模态的特征:首先,使用全连接层将增强的图像特征和增强的文本特征映射成高维向量,然后两个高维向量逐元素相乘,并使用池化层降维,得到融合后的特征Q,最后经过1个全连接层得到美学评分分布预测;
所述步骤S2具体包括以下步骤:
步骤S21、设计一个编码器-解码器结构;编码器的输入特征为教师网络得到的增强的文本特征编码器将输入特征编码成具有全局美学语义信息的潜在编码隐向量解码器则是要将重建输入特征;在编码器部分,使用4层全连接层网络和带泄漏修正线性单元Leaky ReLU激活进行特征提取;在解码器部分,使用4层全连接层网络和带泄漏修正线性单元Leaky ReLU激活来重建特征;
步骤S22、设计一个学生网络;学生网络包含一个Resnet50网络、转换器网络和1个用于美学评分分布预测的全连接层;对于一个输入图像,首先经过步骤S11进行图像预处理,然后输入到特征提取模块,特征提取模块使用Resnet50网络中的conv1_x,conv2_x,…,conv5_x层和平均池化层,提取平均池化层的特征,记为αstu,再经由转换器网络得到学生特征再输入给全连接层用于预测美学分布;其中,转换器网络是2层全连接层网络,每层由线性变换层和带泄漏修正线性单元Leaky Relu激活组成,转换器网络的作用是将学生特征投影到和编码隐向量同一个语义空间;
所述步骤S3具体实现如下:
设计一个模态分类器D作为判别器,判别器参数为θD,判别器用来判断输入的特征属于教师特征模态还是学生特征模态,做一个二分类任务;判别器由3层全连接层网络组成,每层包含一个线性变换层和Relu激活函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110020656.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息处理方法及装置
- 下一篇:一种恒压上提式颅骨凹陷可视复位装置