[发明专利]一种基于彩色相机与红外热成像仪特征融合的目标检测方法有效
申请号: | 202010135485.0 | 申请日: | 2020-03-02 |
公开(公告)号: | CN111382683B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 殷国栋;吴愿;薛培林;耿可可;庄伟超;黄文涵;沈童;于晨风;邹伟;卢彦博;王金湘;张宁;陈建松;任祖平 | 申请(专利权)人: | 东南大学 |
主分类号: | G06V20/56 | 分类号: | G06V20/56;G06V10/20;G06V10/80 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 彭英 |
地址: | 210096 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 彩色 相机 红外 成像 特征 融合 目标 检测 方法 | ||
1.一种基于彩色相机与红外热成像仪特征融合的目标检测方法,其特征在于包括以下步骤:
a、通过彩色相机获得彩色数据集,通过红外热成像仪获得热红外数据集;
b、将所述彩色数据集和热红外数据集组成的双模态数据集同时输入到双模态的YOLOv3神经网络算法中,提取目标的颜色特征与温度特征;在YOLOv3主干网络的某一层通过融合函数与1×1卷积块将两个模态的特征融合,然后选取融合后的特征图继续进行主干网络的特征提取,得到融合后的提取特征图;
c、融合后的提取特征图输入到后续的卷积层中进行目标的分类,最终输出一个训练完成的双模态神经网络的算法模型;
所述双模态的YOLOv3神经网络算法包括双通道的输入层;输入层的一个通道输入彩色数据集,另一个通道输入热红外数据集;
所述双模态的YOLOv3神经网络算法包括主干网络及后续的卷积层;所述主干网络为Darknet-53,共计52层;所述后续的卷积层共计23层;
步骤b中所述融合函数的公式为yi=f(pi,qi);
其中pi为某一层的彩色数据集的特征图矩阵,维度是n×c1×h×w;qi为某一层的热红外数据集的特征图矩阵,维度是n×c2×h×w;
n表示图像数量,h表示特征图矩阵的高度,w表示特征图矩阵的宽度,c1表示彩色数据集的特征图矩阵的通道数,c2表示热红外数据集的特征图矩阵的通道数;
经过融合函数后得到的yi矩阵的维度为n×c0×h×w,其中c0=c1+c2。
2.根据权利要求1所述的基于彩色相机与红外热成像仪特征融合的目标检测方法,其特征在于:所述步骤b可采用如下任意一种方案:
方案一、
b.1、在主干网络的第1层通过融合函数与1×1卷积块进行融合;
将所述彩色数据集和热红外数据集同时输入到双模态的YOLOv3神经网络算法的第一层,通过融合函数将两个模态的数据集图像进行线性叠加,得到叠加数据集;所述彩色数据集的维度是n×c1×h×w,所述热红外数据集的维度是n×c2×h×w,叠加数据集的维度是n×c0×h×w;其中c0=c1+c2;
所述1×1卷积块包括3个维度为c0×1×1的卷积核函数和激活函数;
每一个卷积核进行图像特征的提取时,c0×1×1的卷积核分别与叠加数据集图像上每个单位区域的c0×1×1的局部矩阵进行加权求和,输出的矩阵维度为1×1×1;则经过加权求和以后的单个图像矩阵维度变为1×h×w;
叠加数据集的每个图像经过加权求和以后得到的矩阵,通过激活函数运算,输出融合后图像的矩阵为n×3×h×w;
b.2、将融合后图像矩阵继续输入原主干网络的52层进行特征提取的操作,提取到的特征从浅层单个线条与颜色等边缘性特征继而到深层图像上某一部分的深层语义特征;由于网络算法增加了一层1×1卷积层,所以其他层的卷积层序号依次增加1,网络第26层输出第一提取特征图,第43层输出第二提取特征图,第52层输出第三提取特征图;其中第一提取特征图的矩阵维度是n×256×h/8×w/8,第二提取特征图的矩阵维度是n×512×h/16×w/16、第三提取特征图的矩阵维度是n×1024×h/32×w/32,至此,Darknet-53卷积层执行结束;
方案二、
b.1、将所述彩色数据集和热红外数据集同时输入到双模态的YOLOv3神经网络算法,利用主干网络的前25个卷积层分别进行双模态数据集的特征提取,通过卷积操作提取到从浅层单个线条与颜色等边缘性特征,继而到深层图像上某一部分的深层语义特征;经过前25层卷积后,彩色数据集和热红外数据集的特征图输出矩阵均为n×256×h/8×w/8;
b.2、将第25层输出的两个模态的数据集图像通过融合函数与1×1卷积块进行融合;通过融合函数将第25层输出的两个模态的数据集图像进行线性叠加,得到叠加数据集;所述叠加数据集的维度是n×512×h/8×w/8;
所述1×1卷积块包括256个维度为512×1×1的卷积核函数和激活函数;
每一个卷积核进行图像特征的提取时,512×1×1的卷积核分别与叠加数据集图像上每个单位区域的512×1×1的局部矩阵进行加权求和,输出的矩阵维度为1×1×1;则经过加权求和以后的单个图像矩阵维度变为1×h/8×w/8;
叠加数据集的每个图像经过加权求和以后得到的矩阵,通过激活函数运算,输出第一提取特征图的矩阵为n×256×h/8×w/8;
b.3、将第一提取特征图的矩阵继续输入到主干网络剩下的卷积层中继续进行特征的提取,由于在第26层增加了一层1×1卷积,所以主干网络26层之后的卷积层层数序号依次加一;第43层输出第二提取特征图,第52层输出第三提取特征图;其中第二提取特征图的矩阵维度是n×512×h/16×w/16、第三提取特征图的矩阵维度是n×1024×h/32×w/32,至此,Darknet-53卷积层执行结束;
方案三、
b.1、将所述彩色数据集和热红外数据集同时输入到双模态的YOLOv3神经网络算法,利用主干网络的前42个卷积层分别进行双模态数据集的特征提取,通过卷积操作提取到从浅层单个线条与颜色等边缘性特征,继而到深层图像上某一部分的深层语义特征;
b.2、第25层卷积后,彩色数据集和热红外数据集的特征图输出矩阵均为n×256×h/8×w/8;
将第25层输出的两个模态的数据集图像通过融合函数与1×1卷积块进行融合;
通过融合函数将第25层输出的两个模态的数据集图像进行线性叠加,得到叠加数据集;所述叠加数据集的维度是n×512×h/8×w/8;
第25层使用的所述1×1卷积块包括256个维度为512×1×1的卷积核函数和激活函数;每一个卷积核进行图像特征的提取时,512×1×1的卷积核分别与叠加数据集图像上每个单位区域的512×1×1的局部矩阵进行加权求和,输出的矩阵维度为1×1×1;
则经过加权求和以后的单个图像矩阵维度变为1×h/8×w/8;
叠加数据集的每个图像经过加权求和以后得到的矩阵,通过激活函数运算,输出第一提取特征图的矩阵为n×256×h/8×w/8;
b.3、第42层卷积后,彩色数据集和热红外数据集的特征图输出矩阵均为n×512×h/16×w/16;
将第42层输出的两个模态的数据集图像通过融合函数与1×1卷积块进行融合;
通过融合函数将第42层输出的两个模态的数据集图像进行线性叠加,得到叠加数据集;所述叠加数据集的维度是n×1024×h/16×w/16;
第42层使用的所述1×1卷积块包括512个维度为1024×1×1的卷积核函数和激活函数;每一个卷积核进行图像特征的提取时,1024×1×1的卷积核分别与叠加数据集图像上每个单位区域的1024×1×1的局部矩阵进行加权求和,输出的矩阵维度为1×1×1;则经过加权求和以后的单个图像矩阵维度变为1×h/16×w/16;叠加数据集的每个图像经过加权求和以后得到的矩阵,通过激活函数运算,输出第二提取特征图的矩阵为n×512×h/16×w/16;
b.4、将第二提取特征图的矩阵继续输入到主干网络剩下的卷积层中继续进行特征的提取,直至输出第三提取特征图;
第三提取特征图的矩阵维度是n×1024×h/32×w/32,至此,Darknet-53卷积层执行结束;
方案四、
b.1、将所述彩色数据集和热红外数据集同时输入到双模态的YOLOv3神经网络算法,利用主干网络的52个卷积层分别进行双模态数据集的特征提取,通过卷积操作提取到从浅层单个线条与颜色等边缘性特征,继而到深层图像上某一部分的深层语义特征;
b.2、第25层卷积后,彩色数据集和热红外数据集的特征图输出矩阵均为n×256×h/8×w/8;
第42层卷积后,彩色数据集和热红外数据集的特征图输出矩阵均为n×512×h/16×w/16;
第51层卷积后,彩色数据集和热红外数据集的特征图输出矩阵均为n×1024×h/32×w/32;
b.3、将第25层输出的两个模态的数据集图像通过融合函数与1×1卷积块进行融合;通过融合函数将第25层输出的两个模态的数据集图像进行线性叠加,得到叠加数据集;所述叠加数据集的维度是n×512×h/8×w/8;
第25层使用的所述1×1卷积块包括256个维度为512×1×1的卷积核函数和激活函数;
每一个卷积核进行图像特征的提取时,512×1×1的卷积核分别与叠加数据集图像上每个单位区域的512×1×1的局部矩阵进行加权求和,输出的矩阵维度为1×1×1;
则经过加权求和以后的单个图像矩阵维度变为1×h/8×w/8;
叠加数据集的每个图像经过加权求和以后得到的矩阵,通过激活函数运算,输出第一提取特征图的矩阵为n×256×h/8×w/8;
b.4、将第42层输出的两个模态的数据集图像通过融合函数与1×1卷积块进行融合;通过融合函数将第42层输出的两个模态的数据集图像进行线性叠加,得到叠加数据集;所述叠加数据集的维度是n×1024×h/16×w/16;
第42层使用的所述1×1卷积块包括512个维度为1024×1×1的卷积核函数和激活函数;每一个卷积核进行图像特征的提取时,1024×1×1的卷积核分别与叠加数据集图像上每个单位区域的1024×1×1的局部矩阵进行加权求和,输出的矩阵维度为1×1×1;则经过加权求和以后的单个图像矩阵维度变为1×h/16×w/16;
叠加数据集的每个图像经过加权求和以后得到的矩阵,通过激活函数运算,输出第二提取特征图的矩阵为n×512×h/16×w/16;
b.5、将第51层输出的两个模态的数据集图像通过融合函数与1×1卷积块进行融合;通过融合函数将第51层输出的两个模态的数据集图像进行线性叠加,得到叠加数据集;所述叠加数据集的维度是n×2048×h/32×w/32;
第51层使用的所述1×1卷积块包括1024个维度为2048×1×1的卷积核函数和激活函数;
每一个卷积核进行图像特征的提取时,2048×1×1的卷积核分别与叠加数据集图像上每个单位区域的2048×1×1的局部矩阵进行加权求和,输出的矩阵维度为1×1×1;则经过加权求和以后的单个图像矩阵维度变为1×h/32×w/32;
叠加数据集的每个图像经过加权求和以后得到的矩阵,通过激活函数运算,输出第三提取特征图的矩阵为n×1024×h/32×w/32。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010135485.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语义解析方法及语义解析器
- 下一篇:一种声源定位方法及装置