[发明专利]基于改进自监督特征学习的摄影图像美学风格分类方法在审
申请号: | 202111393879.7 | 申请日: | 2021-11-23 |
公开(公告)号: | CN114140645A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 张桦;包尔权;张灵均;吴以凡;叶挺聪;苟若芸 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 监督 特征 学习 摄影 图像 美学 风格 分类 方法 | ||
1.一种基于改进自监督特征学习的摄影图像美学风格分类方法,其特征在于,步骤如下:
步骤1:对AVA美学数据集进行预处理;
步骤2:建立改进自监督特征学习神经网络;构建由特征提取网络、投影网络、改进自监督对比学习损失函数构成的神经网络模型;
步骤3:用二分类的AVA美学数据集对改进自监督特征学习神经网络进行预训练;
步骤4:提取出步骤3中预训练完成的改进自监督特征学习神经网络的特征提取网络部分,并连接一个SoftMax分类器,建立分类网络模型;
步骤5:摄影图像美学分类数据集是一个标注摄影属性的数据集,一共有14个摄影属性,采用LSTM神经网络结构输出具体的数据增强策略,并应用于摄影图像美学分类数据集的训练集部分,再训练步骤4中的分类网络模型,以该模型在摄影图像美学分类数据集的验证集中达到的分类精度作为奖励信号更新LSTM神经网络的参数,直到搜索到最佳的数据增强策略,同时得到分类精度最佳的摄影图像美学分类模型。
2.根据权利要求1所述的一种基于改进自监督特征学习的摄影图像美学风格分类方法,其特征在于,步骤1具体方法如下:
AVA美学数据集是一个美学质量评估的数据集,包括N(N=250000)张美学图像,每张图像都有若干人投票,投票的分数从0~9分;计算每张美学图像的平均得分,将大于等于5分的美学图像归类为高质量图像,将小于5分的美学图像归类为低质量图像。
3.根据权利要求2所述的一种基于改进自监督特征学习的摄影图像美学风格分类方法,其特征在于,步骤2具体方法如下:
所述的改进自监督特征学习神经网络由特征提取网络、投影网络、改进自监督对比学习损失函数构成;具体过程如下:
2-1.建立特征提取网络;
针对每个输入样本x,将ResNet50作为特征提取网络得到表征向量进行归一化到超球面;
2-2.建立投影网络;
获得表征向量r后,通过投影网络获得向量投影网络为一个多层感知器网络,包括一个2048维度的隐层和一个DP=128的输出层;将向量z再次归一化到超球面;
2-3.建立改进的自监督对比学习损失函数;
对于给定容量为N的随机采样的数据/标签对{xk,yk}k=1...N进行数据增强,获得数据容量为2N的数据/标签对用于训练,其中和是xk经过两次不同的数据增强生成的,且标签
在同一批次训练数据中,任意选取索引的数据作为基准数据,则j(i)是与索引i的数据来源于同一个源数据样本进行数据增强得到的另一个数据索引,A(i)表示其余数据的集合;自监督对比学习损失函数公式如下:
其中,符号·表示内积运算,表示温度系数zi表示数据经过特征提取网络Enc与投影网络Proj得到的特征向量,表示该特征向量的维度;则zj(i)与za表示索引为j(i)与索引为(a∈A(i))的数据经过特征提取网络与投影网络得到的特征向量;
在对比学习中,公式(1)不能覆盖到一种情况,即由于数据有标签的存在,属于同一类别的不止一个数据样本;为了应对这种情况,对公式(1)进行改进,得到改进的自监督对比学习损失函数如下:
其中,表示所有与索引i的数据样本属于同一标签的正样本索引集合,|P(i)|表示这个集合中的数据样本个数。
4.根据权利要求3所述的一种基于改进自监督特征学习的摄影图像美学风格分类方法,其特征在于,步骤5具体方法如下:
摄影图像美学分类数据集是一个标注摄影属性的数据集,一共有14个摄影属性,分别是:Complementary Colors、Duotones、High Dynamic Range、Image Grain、LightonWhite、Long Exposure、Macro、MotionBlur、Negative Image、Rule ofThirds、ShallowDOF、Silhouettes、SoftFocus、Vanishing Point;采用LSTM神经网络结构输出具体的数据增强策略,并应用于摄影图像美学分类数据集的训练集部分,再训练步骤4中的分类网络模型,以该模型在摄影图像美学分类数据集的验证集中达到的分类精度作为奖励信号更新LSTM神经网络的参数,直到搜索到最佳的数据增强策略,同时得到分类精度最佳的摄影图像美学分类模型;
具体步骤如下:
5-1.确定搜索空间;
定义1个数据增强策略包含5个子策略,每个子策略包括2个图像处理函数,每个图像处理函数包括3个属性:图像处理函数类型、应用概率和对应图像处理函数的幅度参数;采用14种图像处理函数包括ShearX/Y,TranslateX/Y,Rotate,AutoContrast,Invert,Equalize,Solarize,Posterize,Contrast,Color,Brightness,Sharpness,Cutout,SamplePairing;应用概率离散为11个均匀间距的值;幅度参数范围离散为10个均匀间距的值;因此寻找1个子策略成为了(14×10×11)2种可能的空间中的搜索问题;那么寻找1个数据增强策略具有(14×10×11)5种可能;
5-2.确定搜索算法;
搜索算法由两部分组成,一部分是采用LSTM神经网络作为控制器,另一部分采用最近策略优化算法更新控制器的参数;在每一次训练过程中输出30组softmax预测值;
5-3.确定反馈信号;
控制器需要通过一个奖励信号进行训练,该奖励信号定义为某个策略对于步骤4中的分类网络模型泛化能力的优化程度;将摄影图像美学分类数据集划分为训练集与验证集,在训练集上应用5个子策略生成增强的数据训练分类网络模型,然后再验证集上评估分类网络模型的精度,评估结果作为控制器的奖励信号;
5-4.搜索结束时,得到最佳数据增强策略与对应的摄影图像美学分类网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111393879.7/1.html,转载请声明来源钻瓜专利网。