[发明专利]一种基于特征融合的目标检测方法有效
申请号: | 202010751441.0 | 申请日: | 2020-07-30 |
公开(公告)号: | CN111860683B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 崔玉宁;史殿习;刘哲;杨思宁;李林 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 湖南企企卫知识产权代理有限公司 43257 | 代理人: | 任合明 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 融合 目标 检测 方法 | ||
1.一种基于特征融合的目标检测方法,其特征在于包括以下步骤:
第一步:构建目标检测系统,目标检测系统由特征提取模块、间接特征融合模块、直接特征融合模块、第一变形模块、第二变形模块、检测模块组成;
特征提取模块为一个卷积神经网络,与第一变形模块相连;特征提取模块接收图像I,对图像I进行特征提取,得到多尺度特征图集合F(I),将F(I)发送给第一变形模块;
第一变形模块是对F(I)进行插值和下采样操作的模块,与特征提取模块、间接特征融合模块相连;对F(I)中的特征图进行下采样或插值操作,统一特征图的尺寸,得到A1(I),将A1(I)发送给间接特征融合模块;
间接特征融合模块与第一变形模块、直接特征融合模块相连,间接特征融合模块由第一通道变换模块、特征拼接模块、6个注意力模块组成;间接特征融合模块从第一变形模块接收A1(I),将A1(I)中高层特征图的像素间的依赖关系和低层特征图像素间的依赖关系进行融合,运用融合的像素间的依赖关系,通过加权计算得到经过间接特征融合的特征图h1,h2,h3,h4,h5,h6,将h1,h2,h3,h4,h5,h6发送给直接特征融合模块;
第一通道变换模块包含6个1×1卷积神经网络,与第一变形模块、特征拼接模块、直接特征融合模块相连,从第一变形模块接收A1(I),分别对A1(I)中的每个特征图进行1×1卷积神经操作,将A1(I)中6个特征图的通道数统一为256,得到A2(I)={a21,a22,a23,a24,a25,a26},将A2(I)输出给特征拼接模块、直接特征融合模块;A2(I)中的特征图尺寸都为256×10×10;
特征拼接模块与第一通道变换模块、6个注意力模块相连,从第一通道变换模块接收A2(I),对A2(I)中的6个特征图进行特征拼接操作,将A2(I)中的6个特征图拼接成第一特征图I1,将I1发送给6个注意力模块,I1的尺寸为1536×10×10;
第i个注意力模块与特征拼接模块、直接特征融合模块相连,对I1提取像素间的依赖关系,根据依赖关系加权计算得到经过间接特征融合的特征图hi,将hi发送给直接特征融合模块;第i个注意力模块由查询模块、键模块、值模块、依赖关系模块、归一化模块、像素赋权模块、特征相加模块组成;1≤i≤6;
查询模块与特征拼接模块、依赖关系模块相连,从特征拼接模块接收I1,对I1进行1×1卷积操作,得到第二特征图I2”,I2”的尺寸为192×10×10;对I2”进行维度合并操作,将第二维度和第三维度合并,得到第二合并后特征图I2’,I2’的尺寸为192×100;对I2’进行转置操作,得到第二转置后特征图I2,I2的尺寸为100×192,将I2发送给依赖关系模块;
键模块与特征拼接模块、依赖关系模块相连,从特征拼接模块接收I1,对I1进行1×1卷积操作,得到第三特征图I3’,I3’的尺寸为192×10×10;对I3’进行维度合并操作,将第二维度和第三维度合并,得到第三合并后特征图I3,I3的尺寸为192×100,将I3发送给依赖关系模块;
依赖关系模块与查询模块、键模块、归一化模块相连,从查询模块接收I2、从键模块接收I3,对I2、I3进行向量乘法操作,得到I2、I3不同像素间的依赖关系图I4,I4的尺寸为100×100,将I4发送给归一化模块;
归一化模块与依赖关系模块和像素赋权模块相连,从依赖关系模块接收I4,对I4的每一行进行归一化操作,得到归一化后的像素间依赖关系图I5,I5的尺寸为100×100,将I5发送给像素赋权模块;
值模块与特征拼接模块、像素赋权模块相连,从特征拼接模块接收I1,对I1进行1×1卷积操作,得到第六特征图I6”,I6”的尺寸为1536×10×10,对I6”进行维度合并操作,将第二维度和第三维度合并,得到第六合并后特征图I6’,I6’的尺寸为1536×100;对I6’进行转置操作,得到第六转置后特征图I6,I6的尺寸为100×1536,将I6发送给像素赋权模块;
像素赋权模块与值模块、归一化模块、特征相加模块相连,从值模块接收I6、从归一化模块接收I5,对I5、I6执行矩阵乘法操作以对像素赋权,得到像素赋权后特征图I7”,I7”的尺寸为100×1536;对I7”进行转置操作,得到I7’,I7’的尺寸为1536×100;对I7’的第二维度进行维度拆分操作,得到维度拆分后的特征图I7,I7的尺寸为1536×10×10,将I7发送给特征相加模块;
特征相加模块与特征拼接模块、像素赋权模块、直接特征融合模块相连,从特征拼接模块接收I1、从像素赋权模块接收I7,对I1、I7进行像素级别加法操作以利于梯度回传和优化,得到经过特征相加后的特征图hi,hi的尺寸为1536×10×10,将hi发送给直接特征融合模块;
直接特征融合模块与间接特征融合模块、第二变形模块相连,从间接特征融合模块中的第一通道变换模块接收A2(I)、从间接特征融合模块中的6个注意力模块接收h1,h2,h3,h4,h5,h6,对h1,h2,h3,h4,h5,h6变换通道数后,进行直接特征融合,得到经过直接特征融合后的特征图集合J(I),将J(I)发送给第二变形模块;直接特征融合模块由第二通道变换模块、侧向连接模块组成;
第二通道变换模块包含6个1×1卷积神经网络,与间接特征融合模块、侧向连接模块相连,从间接特征融合模块的6个注意力模块中的特征相加模块接收h1,h2,h3,h4,h5,h6,分别对h1,h2,h3,h4,h5,h6进行1×1卷积神经操作,将h1,h2,h3,h4,h5,h6的通道数变换为256,得到特征图集合A8(I),将A8(I)发送给侧向连接模块;
侧向连接模块是进行像素级别加法操作的模块,与第二通道变换模块、第二变形模块、间接特征融合模块的第一通道变换模块相连,从第二通道变换模块接收A8(I)、从第一通道变换模块接收A2(I),对A8(I)和A2(I)进行侧向连接操作即直接特征融合,得到J(I)={j1,j2,j3,j4,j5,j6},j1,j2,j3,j4,j5,j6尺寸均为256×10×10,将J(I)发送给第二变形模块;
第二变形模块与直接特征融合模块、检测模块相连;从直接特征融合模块接收J(I),对J(I)中的特征图进行插值或下采样操作,得到D(I),D(I)中包含d1,d2,d3,d4,d5,d6这6个特征图;将D(I)发送给检测模块;
检测模块与第二变形模块相连,由分类网络、定位网络和非极大值抑制模块组成;定位网络与第二变形模块、非极大值抑制模块相连,定位网络从第二变形模块接收D(I),对D(I)中的每一个特征图进行卷积操作,向非极大值抑制模块输出预测目标的坐标值即预测框坐标值;分类网络与第二变形模块、非极大值抑制模块相连,分类网络从第二变形模块接收D(I),对D(I)中的每一个特征图进行卷积操作,向非极大值抑制模块输出预测目标的类别即目标属于某类的概率值;非极大值抑制模块与分类网络和定位网络相连,采用非极大值抑制方法将重复预测的目标的坐标值和类别去除,获得目标最佳的预测框坐标值和预测类别;
第二步:准备目标检测系统的训练数据集,方法为:
选择PASCAL VOC 2007、PASCAL VOC 2012的训练集、验证集中的所有图片作为训练数据集,训练数据集图片中共包含E种目标类别,E为正整数;对于训练数据集中的第d张图片,1≤d≤16551,PASCAL VOC 2007、PASCAL VOC 2012中给出了第d张图片所包含的目标的类别以及位置向量gd={gd1,gd2,...,gdz,...,gdZ},dZ表示第d张图片中包含的目标数量,其中为包含四个值的一维向量,为第d张图片的第z个目标区域矩形框的左上角的坐标值,为第d张图片的第z个目标区域矩形框的右下角的坐标值,四个坐标值均为标量,中的四个值表示出第d张图片的第z个目标区域矩形的目标区域;
第三步,采用第二步构建的训练数据集训练目标检测系统中的各个模块,方法是:
3.1对特征提取模块的网络参数Φ1、间接特征融合模块的网络参数Φ2、直接特征融合模块的网络参数Φ3、检测模块的网络参数Φ4进行初始化;
3.2将训练数据集中的图片依次输入到目标检测系统中,对目标检测系统进行训练,拟合得到目标检测系统的网络参数;
第四步:利用目标检测系统进行目标检测,方法是:
4.1从相机或文件获得需要检测的图像I;
4.2将训练得到的目标检测系统的网络参数载入到目标检测系统中;
4.3特征提取模块对被检测图像I进行特征提取,得到多尺度特征图集合F(I),将F(I)发送给第一变形模块;F(I)中包含6张图,尺寸分别为512×38×38,1024×19×19,512×10×10,256×5×5,256×3×3,256×1×1;尺寸为512×38×38,1024×19×19,512×10×10的为低层特征图;尺寸为256×5×5,256×3×3,256×1×1的为高层特征图;
4.4第一变形模块从特征提取模块接收F(I),对F(I)中的特征图进行下采样或插值操作,统一特征图的尺寸,得到A1(I),将A1(I)发送给间接特征融合模块;A1(I)包含的特征图尺寸为512×10×10,1024×10×10,512×10×10,256×10×10,256×10×10,256×10×10;
4.5间接特征融合模块从第一变形模块接收A1(I),将A1(I)中高层特征图即尺寸为256×10×10,256×10×10,256×10×10的特征图像素间的依赖关系和低层特征图即尺寸为512×10×10,1024×10×10,512×10×10的特征图像素间的依赖关系进行融合,运用融合的像素间的依赖关系,通过加权计算得到经过间接特征融合的特征图h1,h2,h3,h4,h5,h6,将h1,h2,h3,h4,h5,h6发送给直接特征融合模块;具体方法为:
4.5.1第一通道变换模块从第一变形模块接收A1(I),对A1(I)中的特征图分别采用1×1卷积神经网络进行通道变换操作,得到A2(I)={a21,a22,a23,a24,a25,a26},a21,a22,a23,a24,a25,a26均为尺寸为256×10×10的特征图,将A2(I)发送给特征拼接模块、直接特征融合模块;
4.5.2特征拼接模块从第一通道变换模块接收A2(I),对A2(I)进行特征拼接操作,将6个特征图拼接成第一特征图I1,I1的尺寸为1536×10×10;将I1发送给6个注意力模块;
4.5.36个注意力模块同时从特征拼接模块接收I1,并行地运用矩阵乘法操作对I1提取不同像素间的依赖关系;将所有特征图的信息都考虑在内,实现不同特征图间的间接信息融合;运用融合后的像素间的依赖关系,通过像素赋权模块和特征相加模块得到特征图h1,h2,h3,h4,h5,h6,将h1,h2,h3,h4,h5,h6发送给直接特征融合模块;
4.6直接特征融合模块从间接特征融合模块中的第一通道变换模块接收A2(I)、从间接特征融合模块中的6个注意力模块接收h1,h2,h3,h4,h5,h6,将h1,h2,h3,h4,h5,h6统一通道数后,进行直接特征融合,得到经过直接特征融合后的特征集合J(I)={j1,j2,j3,j4,j5,j6},j1,j2,j3,j4,j5,j6的尺寸为256×10×10,将J(I)发送给第二变形模块,具体方法为:
4.6.1第二通道变换模块从间接特征融合模块的6个注意力模块接收h1,h2,h3,h4,h5,h6,分别对h1,h2,h3,h4,h5,h6进行1×1卷积神经操作,将h1,h2,h3,h4,h5,h6的通道数变换为256,以减小后续计算量,得到特征图集合A8(I),将A8(I)发送给侧向连接模块;A8(I)中的特征图尺寸都为256×10×10;
4.6.2侧向连接模块从第二通道变换模块接收A8(I)、从第一通道变换模块接收A2(I),对A8(I)和A2(I)进行侧向连接操作,即从A8(I)最高层特征图h6开始,对h6特征图与h5特征图进行相加并除2,得到h65,再将h65与h4进行相加并除2,得到h54,以此类推,直到获得h21,将h6,h65,h54,h43,h32,h21放入到集合J(I)’中,将J(I)’与A2(I)执行像素加法操作,得到J(I)={j1,j2,j3,j4,j5,j6},j1,j2,j3,j4,j5,j6尺寸均为256×10×10,将J(I)发送给第二变形模块;
4.7第二变形模块从直接特征融合模块接收J(I),对j1,j2,j3分别进行下采样操作,得到d1,d2,d3,尺寸分别为256×1×1,256×3×3,256×5×5;对j5,j6分别进行插值操作,得到d5,d6,尺寸分别为256×19×19,256×38×38;将d1,d2,d3,j4,d5,d6放到集合D(I)中,将D(I)发送给检测模块;
4.8检测模块从直接特征融合模块接收D(I),利用分类网络获得预测目标的概率集合C(I)={c1,c2,c3,…,ce,…,cE},E为训练数据集图片中共包含的目标类别数;ce={ce1,ce2,ce3,…,cep,…,ceP},表示预测目标属于第e类的概率集合,cep表示属于第e类的预测目标中第ep个目标属于第e类的概率;利用定位网络获得预测目标的坐标值集合L(I)={l1,l2,l3,…,le,…,lE},le={le1,le2,le3,…,lep,…,leP},表示预测目标属于第e个类别的坐标向量集合,是坐标系中预测目标框左上角横坐标,是预测目标框左上角纵坐标,是预测目标框右下角横坐标,是预测目标框右下角纵坐标;le和ce中相同序号的元素对应相同的预测目标,然后利用非极大值抑制模块对L(I)和C(I)进行筛选,获得最终的目标检测结果,具体方法为:
4.8.1分类网络接收D(I),生成预测目标的类别概率C(I)={c1,c2,c3,…,ce,…,cE};
4.8.2定位网络接收D(I),生成预测目标的坐标值集合L(I)={l1,l2,l3,…,le,…,lE};
4.8.3利用非极大值抑制模块对L(I)和C(I)进行筛选:
4.8.3.1初始化e=1;
4.8.3.2将ce中的概率值按照降序排列;
4.8.3.3将le中坐标值按照ce的排序结果重新排列,保证属于同一个预测目标的类别概率和坐标值的元素序号相同;
4.8.3.4初始化p=1;
4.8.3.5计算le(p+1)预测目标框与lep预测目标框的交并比;若交并比小于阈值t,则删除le(p+1)目标框对应的预测目标,转4.8.3.6;若交并比大于t,则保留le(p+1)对应的预测目标,转4.8.3.6;
4.8.3.6若p<P,则令p=p+1,转4.8.3.5;若p=P,转4.8.3.7;
4.8.3.7若e<E,则令e=e+1,转4.8.3.2;若e=E,转4.8.3.8;
4.8.3.8收集C(I)中被保留的类别概率,收集L(I)中被保留的坐标值,作为目标检测系统最终的预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010751441.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:卵母细胞及胚胎自动玻璃化保存一体化装置及其应用方法
- 下一篇:激光检测装置