[发明专利]一种基于通道注意力机制的猪脸识别方法在审
申请号: | 202111536355.9 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114359958A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 许水清;何启航;郑浩东;陶松兵;都海波 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V10/771;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 合肥和瑞知识产权代理事务所(普通合伙) 34118 | 代理人: | 王挺 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 通道 注意力 机制 识别 方法 | ||
1.一种基于通道注意力机制的猪脸识别方法,其特征在于,包括通过训练基于通道注意力机制的残差网络得到具有最佳识别效果的猪脸识别网络,并利用该猪脸识别网络对猪脸进行识别,具体包括以下步骤:
步骤1,猪脸图像的采集和处理
采集Z类猪脸图像,其中Z记为猪脸图像的种类数;
在Z类猪脸图像的每类中选M张猪脸图像,得到M×Z张猪脸图像,然后对M×Z张猪脸图像分别用A种图像处理方式进行数据增强并保留每种图像处理方式得到的猪脸图像,即共得到(A+1)×M×Z张猪脸图像,该(A+1)×M×Z猪脸图像构成一个训练样本集;
在Z类猪脸图像的每类中另外选N张猪脸图像,得到N×Z张猪脸图像,该N×Z张猪脸图像构成一个测试样本集,N≠M;
步骤2,通过训练基于通道注意力机制的残差网络得到具有最佳识别效果的网络,并将该具有最佳识别效果的网络记为猪脸识别网络,步骤如下:
步骤2.1,采用基于通道注意力机制的残差网络作为主干网络,所述残差网络的结构包括:卷积核大小为7×7通道数为64的卷积层Γ1,卷积核大小为3×3的最大池化下采样层Φ,3个相同的残差结构1沿主干网络输入-输出方向串联得到的第一残差结构组A1,4个相同的残差结构2沿主干网络输入-输出方向串联得到的第二残差结构组Λ2,6个相同的残差结构3沿主干网络输入-输出方向串联得到的第三残差结构组Λ3,3个相同的残差结构4沿主干网络输入-输出方向串联得到的第四残差结构组Λ4;主干网络的输入为卷积层Γ1,卷积层Γ1、采样层Φ、第一残差结构组Λ1、第二残差结构组Λ2、第三残差结构组Λ3和第四残差结构组A4依次串联;
所述残差结构1由沿主干网络输入-输出方向依次串联的以下3个卷积层构成:卷积核大小为1×1通道数为64的卷积层,卷积核大小为3×3通道数为64的卷积层,卷积核大小为1×1通道数为256的卷积层,在卷积核大小为1×1通道数为256的卷积层后插入一个通道注意力机制;
所述残差结构2由沿主干网络输入-输出方向依次串联的以下3个卷积层构成:卷积核大小为1×1通道数为128的卷积层,卷积核大小为3×3通道数为128的卷积层,卷积核大小为1×1通道数为512的卷积层,在卷积核大小为1×1通道数为512的卷积层后插入一个通道注意力机制;
所述残差结构3由沿主干网络输入-输出方向依次串联的以下3个卷积层构成:卷积核大小为1×1通道数为256的卷积层,卷积核大小为3×3通道数为256的卷积层,卷积核大小为1×1通道数为1024的卷积层,在卷积核大小为1×1通道数为1024的卷积层后插入一个通道注意力机制;
所述残差结构4由沿主干网络输入-输出方向依次串联的以下3个卷积层构成:卷积核大小为1×1通道数为512的卷积层,卷积核大小为3×3通道数为512的卷积层,卷积核大小为1×1通道数为2048的卷积层,在卷积核大小为1×1通道数为2048的卷积层后插入一个通道注意力机制;
主干网络的输出为第四残差结构组Λ4中的第3个残差结构4后插入的通道注意力机制的输出;
将通道注意力机制插入前的卷积层的通道数记为δ,δ或等于256或等于512或等于1024或等于2048;
步骤2.2,利用训练样本集对步骤2.1所述主干网络进行优化,具体步骤如下:
步骤2.2.1,通过图像预处理操作将训练样本集中的猪脸图像的像素统一调整为C×C;
步骤2.2.2,随机选取训练样本集中的B张猪脸图像,并将其中任意一个猪脸图像的序号记为s,s=1,2,...,B,计算第s张猪脸图像的实际概率序列Ys,其中,q为实际概率序列Ys中每个实际概率值的序号,q=1,2,...,Z,表示第s张猪脸图像在实际概率序列Ys中的第q个实际概率值;
实际概率序列Ys的取值如下:令且中的其他实际概率值均等于0;
步骤2.2.3,将步骤2.2.2选取得到的B张猪脸图像输入主干网络,输出每张猪脸图像的预测概率序列Xs,其中p为预测概率序列Xs中每个预测概率值的序号,p=1,2,...,Z,表示第s张猪脸图像在预测概率序列Xs中的第p个预测概率值;
步骤2.2.4,根据预测概率序列Xs与实际概率序列Ys对主干网络进行优化;
步骤2.2.5,重复步骤2.2.2至步骤2.2.4,直至训练样本集中的猪脸图像都被选取过;特别的,如果最后一轮选取中,训练样本集剩下的猪脸图像数小于B,则从已经选取过的猪脸图像中随机选取猪脸图像进行补充;
将通过步骤2.2.2-步骤2.2.5完成优化的主干网络记为第h世代的主干网络Th,其中h为世代的序号;
步骤2.3,利用测试样本集,计算第h世代的主干网络Th对测试样本集中猪脸图像分类的准确率vh,为利用主干网络Th对测试样本集中猪脸图像进行正确分类的数值,
步骤2.4,设重复次数为G,G次重复步骤2.2和步骤2.3,得到一个主干网络序列T和一个准确率序列V,T={T1,T2,...,Th,...,TG},V={v1,v2,...,vh,...,vG};
步骤2.5,记vo为最高准确率,vo=max{v1,v2,...,vh,...,vG},vo对应的主干网络To即为具有最佳识别效果的网络,并记为猪脸识别网络;
步骤3,利用猪脸识别网络对猪脸进行识别,具体步骤如下:
步骤3.1,输入一张待识别原始猪脸图像并进行以下图像处理:首先将该待识别原始猪脸图像的像素调整为D×D,然后再将像素调整为D×D的待识别原始猪脸图像的大小裁剪为E×E,其中E<D;
将通过前述处理的待识别原始猪脸图像记为待识别猪脸图像;
步骤3.2,将待识别猪脸图像送入猪脸识别网络,得到待识别猪脸图像特征向量J,其中J=(j1,j2,...,jl,...,jZ),l表示待识别猪脸图像特征向量的维数,jl表示第l维待识别猪脸图像特征向量的值,l=1,2,...,Z;
步骤3.3,用softmax函数对步骤3.2得到的待识别猪脸图像特征向量J进行运算,得到概率序列R,其中,R={r1,r2,...,rg,...,rZ},g表示概率序列R的维数,rg表示第g维概率序列的值,g=1,2,...,Z;
所述softmax函数的表达式为:
其中,log表示对数函数,e表示指数函数,
步骤3.4,取rτ=max{r1,r2,...,rg,...,rZ},τ对应的概率序列R的维数即为待识别猪脸图像的类别数,rτ的值为该类别数的置信度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111536355.9/1.html,转载请声明来源钻瓜专利网。