[发明专利]基于注意力机制的通用图像美学评估方法、系统及设备有效
申请号: | 201910086789.X | 申请日: | 2019-01-29 |
公开(公告)号: | CN109886317B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 盛柯恺;董未名;马重阳;梅星;胡包钢 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 通用 图像 美学 评估 方法 系统 设备 | ||
1.一种基于注意力机制的通用图像美学评估方法,其特征在于,所述评估方法包括:
步骤A1,将待评估的图像进行尺寸缩放,令缩放后的图像最短边长等于预设的第一长度;
步骤A2,在所述缩放后的图像上随机裁剪预设个数的正方形图像块,所述正方形图像块的边长等于预设的第二长度;
步骤A3,将每个所述正方形图像块输入到训练好的卷积神经网络模型中,输出一个对应的二维美感等级置信度向量;
步骤A4,计算所述预设个数的所述二维美感等级置信度向量的均值;
步骤A5,根据所述均值,对所述待评估图像进行美学评估;
所述卷积神经网络模型包括依次连接的主干网络、全连接层和softmax模块;
其中,
所述主干网络用于接收正方形图像块,并输出该正方形图像块对应的维度为H×1的表征向量;
所述全连接层的维度为(2+K)×H,用于根据所述表征向量计算出维度为(2+K)×1的美学语义向量;
所述softmax模块用于根据所述美学语义向量计算出维度为(2+K)×1的美学判别置信度向量;所述美学判别置信度向量的第一和第二维度的值组成所述二维美感等级置信度向量;
K为添加的随机向量行数,预设值;H为所述表征向量的行数。
2.根据权利要求1所述的基于注意力机制的通用图像美学评估方法,其特征在于,所述卷积神经网络模型的训练方法包括:
步骤B1,从训练集中随机抽取预设张数的图像,将每张图像按照最短边长等于所述预设的第一长度的要求进行尺寸缩放,并从缩放后的每张图像上随机裁剪一个边长为所述预设的第二长度的正方形图像块;
步骤B2,将裁剪得到的每个正方形图像块分别输入到所述卷积神经网络模型中,得到该正方形图像块对应的二维美感等级置信度向量;
步骤B3,根据每个正方形图像块对应的二维美感等级置信度向量,分别按照下式计算该正方形图像块对应的训练权重ωp:
其中,表示所述卷积神经网络模型对正方形图像块p所做出的美学类别预测;表示正方形图像块p所对应的人工标注的美学类别;表示给定模型参数θ和输入正方形图像块p时,的概率;β表示权重控制因子;
步骤B4,根据每个正方形图像块对应的所述训练权重ωp,分别按照下式计算加权的交叉熵损失:
步骤B5,根据所述加权的交叉熵损失,进行梯度回传和模型参数更新;
步骤B6,重复执行步骤B1至B5的迭代训练步骤,直至完成预设的优化迭代回合数,或者优化过程达到收敛状态。
3.根据权利要求2所述的基于注意力机制的通用图像美学评估方法,其特征在于,步骤B5中“根据所述加权的交叉熵损失,进行梯度回传和模型参数更新”的步骤包括:
根据所述加权的交叉熵损失,按照下式计算待更新的模型参数:
其中,θ′为待更新的模型参数;λ表示学习率,用于控制每次参数更新的步长;B表示裁减得到的预设张数的正方形图像块的集合;
根据所述待更新的模型参数,进行梯度回传并更新所述卷积神经网络模型的参数。
4.根据权利要求2所述的基于注意力机制的通用图像美学评估方法,其特征在于,所述人工标注的美学类别有两种取值:0表示该图像的美感低,1表示该图像的美感高;
相应地,所述二维美感等级置信度向量表示为:
其中,表示所述卷积神经网络模型对正方形图像块p所做出的美学类别预测,θ为所述卷积神经网络模型的参数;第一维元素和第二维元素分别表示给定模型参数θ和输入正方形图像块p时,的概率和的概率。
5.根据权利要求1-4中任一项所述的基于注意力机制的通用图像美学评估方法,其特征在于,所述正方形图像块的数值矩阵都需要进行归一化、白化操作,并除以方差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910086789.X/1.html,转载请声明来源钻瓜专利网。