[发明专利]一种基于格拉姆矩阵的动漫图像分类方法有效
申请号: | 202110415553.3 | 申请日: | 2021-04-19 |
公开(公告)号: | CN113191406B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 卢闰霆;徐儒常;马文广;马伟;李冰;赵金 | 申请(专利权)人: | 金科智融科技(珠海)有限公司;北京工业大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/44;G06V10/82;G06N3/047;G06N3/0464;G06N3/045 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 519000 广东省珠海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 格拉姆 矩阵 动漫 图像 分类 方法 | ||
1.一种基于格拉姆矩阵的动漫图像分类方法,其特征在于包括以下步骤:
S110:获取动漫图像样本数据;
其中,互联网上搜索到的动漫图像样本数据是初始样本数据,搜集到的动漫图像作为训练的正样本,非动漫图像作为负样本;
S120:对动漫图像样本数据进行数据增广,得到动漫图像数据集中的正样本;具体包括S121-S123;
S121:对动漫图像样本数据进行数据增强,得到第一样本数据;
数据增强处理包含对称翻转、位移变换、随机剪裁或添加噪声,或各类组合操作;
S122:对经过数据增强后的数据进行尺度变换,得到第二样本数据;
其中,尺度变换是对样本数据进行的缩小或放大;
S123:将经过尺度变换后的第二样本数据作为动漫图像数据集中的正样本;
其中,动漫图像数据集又分为训练集、验证集和测试集;训练集用于训练模型获取分辨输入图像是否为动漫图像的能力,验证集用于验证所述动漫图像分类模型是否收敛,测试集用于测试所述动漫图像分类模型的动漫图像分类准确率;所述动漫图像数据集中包含非动漫图像,即负样本加入训练、验证和测试;
S130:基于预训练的ResNet50提取出输入样本的特征;
从ResNet50的Conv3_3和Conv5_3提取出输入样本不同尺度下特征图的流程图;其中,输入一幅图片,经过预训练的ResNet50模型,可以分别在Conv3_3层获取28x28大小的特征图,在Conv5_3层获取到7x7大小的特征图;其中,ResNet50使用了50层残差网络;使用了在ImageNet数据集上预训练的ResNet50作为主干网络,用于提取输入图像的特征;选取了ResNet50的Conv1到Conv5_3作为主干网络,在训练时上述主干网络的参数不参与训练;
S140:将特征展平并进行内积运算,生成格拉姆矩阵;
将Conv3_3层获取到的每幅28x28特征图压缩成784维的向量,由此得到512个784维的特征向量,然后对每两个784维的特征向量进行内积操作,由此得到512×512的格拉姆矩阵;将Conv5_3层获取到的每幅7x7特征图压缩成49维的向量,由此得到49维的特征向量,然后对每两个49维的特征向量进行内积操作,由此得到2048×2048的格拉姆矩阵;
S150:将格拉姆矩阵送到分类网络中进行训练,得到动漫图像分类模型;
其中由Conv5_3层获得到的2048×2048格拉姆矩阵将首先经过一个最大池化层,该层具体为4×4的池化核与长度为4的步幅,将输入图像的纹理信息进行提取的同时,降低图像的维度到512×512,与由Conv3_3层获得到的格拉姆矩阵同尺寸;
将上述两个格拉姆矩阵送入卷积网络提取特征,随后将会送到两层全连接层,其中每层全连接层后均接有ReLU线性整流,ReLU对于小于0的数据输出为0,而对于大于0的数据按原样输出;经过Softmax层获得输入样本图像是动漫图像以及非动漫图像的概率;
S210:获取待分类图像;
其中,待分类图像是指要进行区分是否为动漫图像的输入图像;
S220:将待分类图像输入到基于格拉姆矩阵的动漫图像分类分类模型中进行分类,得到待分类图像是否为动漫图像的判断。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金科智融科技(珠海)有限公司;北京工业大学,未经金科智融科技(珠海)有限公司;北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110415553.3/1.html,转载请声明来源钻瓜专利网。