[发明专利]一种基于感知驱动的弱监督水下图像增强方法在审
申请号: | 202211343922.3 | 申请日: | 2022-10-31 |
公开(公告)号: | CN115731121A | 公开(公告)日: | 2023-03-03 |
发明(设计)人: | 姜求平;康耀祖;邵枫 | 申请(专利权)人: | 宁波大学 |
主分类号: | G06T5/00 | 分类号: | G06T5/00;G06N3/08;G06N3/0464 |
代理公司: | 宁波奥圣专利代理有限公司 33226 | 代理人: | 周珏 |
地址: | 315211 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 感知 驱动 监督 水下 图像 增强 方法 | ||
1.一种基于感知驱动的弱监督水下图像增强方法,其包括训练阶段和测试阶段,其特征在于在训练阶段中,首先构建一个第一训练集和一个第二训练集,第一训练集包含数个图像子集,每个图像子集包含数对图像对,每对图像对有两幅水下增强图像,不同图像子集中的水下增强图像的场景各不相同,同一个图像子集中的水下增强图像的场景为同一个场景,每对图像对的两幅水下增强图像所采用的水下图像增强方法不同,第二训练集包含数幅不同场景下的原始水下图像和相同数量的不同场景下的自然图像,其中,水下增强图像、原始水下图像和自然图像的尺寸相同;并构建三个神经网络,第1个神经网络作为图像质量评价网络,第2个神经网络作为图像生成器网络,第3个神经网络作为图像鉴别器网络;然后将第一训练集中的每对图像对的每幅水下增强图像输入到图像质量评价网络中进行网络训练,每轮训练结束后图像质量评价网络输出第一训练集中的每对图像对的每幅水下增强图像的质量预测分数,每轮训练结束后针对第一训练集中的每对图像对计算质量损失函数值,在多轮训练结束后训练得到图像质量评价网络训练模型;再将第二训练集中的每幅原始水下图像输入到图像生成器网络中进行网络训练,每轮训练结束后图像生成器网络输出第二训练集中的每幅原始水下图像对应的增强结果图像,随后将第二训练集中的每幅原始水下图像和对应的增强结果图像以及一幅自然图像分别输入到图像鉴别器网络中进行网络训练,每轮训练结束后先计算图像鉴别器网络的损失函数值,后计算图像生成器网络的损失函数值,交叉训练图像生成器网络和图像鉴别器网络多轮后训练得到图像生成器网络训练模型和图像鉴别器网络训练模型,其中,计算图像生成器网络的损失函数值时考虑了将第二训练集中的原始水下图像输入到图像质量评价网络训练模型中输出的原始水下图像的质量预测分数以及将第二训练集中的原始水下图像对应的增强结果图像输入到图像质量评价网络训练模型中输出的增强结果图像的质量预测分数;在测试阶段中,将测试用水下图像输入到图像生成器网络训练模型中,图像生成器网络训练模型输出测试用水下图像的增强结果;
上述,图像质量评价网络包括1个第一卷积块、4个第二卷积块、12个第三卷积块、1个全局平均池化模型、3个全连接层,由1个第一卷积块、4个第二卷积块、12个第三卷积块构成图像质量评价网络中的编码网络,由1个全局平均池化模型和3个全连接层构成图像质量评价网络中的回归网络;第一卷积块的输入通道数为3、输出通道数为64,第一卷积块的输入端同时接收一幅尺寸为H×W的RGB图像的R、G、B三个通道,将第一卷积块的输出端输出的尺寸为的特征图记为IQ1;第1个第二卷积块的输入通道数为64、输出通道数为256,第1个第二卷积块的输入端接收IQ1,将第1个第二卷积块的输出端输出的尺寸为的特征图记为IQ2;第1个第三卷积块的输入通道数为256、输出通道数为256,第1个第三卷积块的输入端接收IQ2,将第1个第三卷积块的输出端输出的尺寸为的特征图记为IQ3;第2个第三卷积块的输入通道数为256、输出通道数为256,第2个第三卷积块的输入端接收IQ3,将第2个第三卷积块的输出端输出的尺寸为的特征图记为IQ4;第2个第二卷积块的输入通道数为256、输出通道数为512,第2个第二卷积块的输入端接收IQ4,将第2个第二卷积块的输出端输出的尺寸为的特征图记为IQ5;第3个第三卷积块的输入通道数为512、输出通道数为512,第3个第三卷积块的输入端接收IQ5,将第3个第三卷积块的输出端输出的尺寸为的特征图记为IQ6;第4个第三卷积块的输入通道数为512、输出通道数为512,第4个第三卷积块的输入端接收IQ6,将第4个第三卷积块的输出端输出的尺寸为的特征图记为IQ7;第5个第三卷积块的输入通道数为512、输出通道数为512,第5个第三卷积块的输入端接收IQ7,将第5个第三卷积块的输出端输出的尺寸为的特征图记为IQ8;第3个第二卷积块的输入通道数为512、输出通道数为1024,第3个第二卷积块的输入端接收IQ8,将第3个第二卷积块的输出端输出的尺寸为的特征图记为IQ9;第6个第三卷积块的输入通道数为1024、输出通道数为1024,第6个第三卷积块的输入端接收IQ9,将第6个第三卷积块的输出端输出的尺寸为的特征图记为IQ10;第7个第三卷积块的输入通道数为1024、输出通道数为1024,第7个第三卷积块的输入端接收IQ10,将第7个第三卷积块的输出端输出的尺寸为的特征图记为IQ11;第8个第三卷积块的输入通道数为1024、输出通道数为1024,第8个第三卷积块的输入端接收IQ11,将第8个第三卷积块的输出端输出的尺寸为的特征图记为IQ12;第9个第三卷积块的输入通道数为1024、输出通道数为1024,第9个第三卷积块的输入端接收IQ12,将第9个第三卷积块的输出端输出的尺寸为的特征图记为IQ13;第10个第三卷积块的输入通道数为1024、输出通道数为1024,第10个第三卷积块的输入端接收IQ13,将第10个第三卷积块的输出端输出的尺寸为的特征图记为IQ14;第4个第二卷积块的输入通道数为1024、输出通道数为2048,第4个第二卷积块的输入端接收IQ14,将第4个第二卷积块的输出端输出的尺寸为的特征图记为IQ15;第11个第三卷积块的输入通道数为2048、输出通道数为2048,第11个第三卷积块的输入端接收IQ15,将第11个第三卷积块的输出端输出的尺寸为的特征图记为IQ16;第12个第三卷积块的输入通道数为2048、输出通道数为2048,第12个第三卷积块的输入端接收IQ16,将第12个第三卷积块的输出端输出的尺寸为的特征图记为IQ17;全局平均池化模型的输入通道数为2048、输出通道数为2048,全局平均池化模型的输入端接收IQ17,将全局平均池化模型的输出端输出的尺寸为1×1×2048的特征向量记为Igap1;第1个全连接层的输入通道数为2048、输出通道数为4096,第1个全连接层的输入端接收Igap1,将第1个全连接层的输出端输出的尺寸为1×1×2048的特征向量记为If1;第2个全连接层的输入通道数为4096、输出通道数为4096,第2个全连接层的输入端接收If1,将第2个全连接层的输出端输出的尺寸为1×1×4096的特征向量记为If2;第3个全连接层的输入通道数为4096、输出通道数为1,第3个全连接层的输入端接收If2,第3个全连接层的输出端输出一个数值,该数值代表输入到图像质量评价网络中的RGB图像的质量预测分数;
上述,图像生成器网络包括1个第四卷积块、4个第五卷积块、4个第六卷积块、4个第七卷积块、1个第八卷积块,由第四卷积块和4个第五卷积块构成图像生成器网络中的编码网络,由4个第六卷积块构成图像生成器网络中的通道注意力模块,由4个第七卷积块和第八卷积块构成图像生成器网络中的解码网络;第四卷积块的输入通道数为3、输出通道数为32,第四卷积块的输入端同时接收一幅尺寸为H×W的RGB图像的R、G、B三个通道,将第四卷积块的输出端输出的尺寸为H×W×32的特征图记为IE1;第1个第五卷积块的输入通道数为32、输出通道数为32,第1个第五卷积块的输入端接收IE1,将第1个第五卷积块的输出端输出的尺寸为H×W×32的特征图记为IE2;第2个第五卷积块的输入通道数为32、输出通道数为64,第2个第五卷积块的输入端接收IE2,将第2个第五卷积块的输出端输出的尺寸为的特征图记为IE3;第3个第五卷积块的输入通道数为64、输出通道数为128,第3个第五卷积块的输入端接收IE3,将第3个第五卷积块的输出端输出的尺寸为的特征图记为IE4;第4个第五卷积块的输入通道数为128、输出通道数为256,第4个第五卷积块的输入端接收IE4,将第4个第五卷积块的输出端输出的尺寸为的特征图记为IE5;第1个第六卷积块的输入通道数为32、输出通道数为32,第1个第六卷积块的输入端接收IE2,将第1个第六卷积块的输出端输出的尺寸为H×W×32的特征图记为IC1;第2个第六卷积块的输入通道数为64、输出通道数为64,第2个第六卷积块的输入端接收IE3,将第2个第六卷积块的输出端输出的尺寸为的特征图记为IC2;第3个第六卷积块的输入通道数为128、输出通道数为128,第3个第六卷积块的输入端接收IE4,将第3个第六卷积块的输出端输出的尺寸为的特征图记为IC3;第4个第六卷积块的输入通道数为256、输出通道数为256,第4个第六卷积块的输入端接收IE5,将第4个第六卷积块的输出端输出的尺寸为的特征图记为IC4;第1个第七卷积块的输入通道数为256、输出通道数为256,第1个第七卷积块的输入端接收IE5,将第1个第七卷积块的输出端输出的尺寸为的特征图记为ID1;第2个第七卷积块的输入通道数为512、输出通道数为128,第2个第七卷积块的输入端接收对ID1和IC4进行拼接操作后得到的尺寸为的特征图IDC1,将第2个第七卷积块的输出端输出的尺寸为的特征图记为ID2;第3个第七卷积块的输入通道数为256、输出通道数为64,第3个第七卷积块的输入端接收对ID2和IC3进行拼接操作后得到的尺寸为的特征图IDC2,将第3个第七卷积块的输出端输出的尺寸为的特征图记为ID3;第4个第七卷积块的输入通道数为128、输出通道数为32,第4个第七卷积块的输入端接收对ID3和IC2进行拼接操作后得到的尺寸为的特征图IDC3,将第4个第七卷积块的输出端输出的尺寸为H×W×32的特征图记为ID4;第八卷积块的输入通道数为64、输出通道数为3,第八卷积块的输入端接收对ID4和IC1进行拼接操作后得到的尺寸为H×W×64的特征图IDC4,将第八卷积块的输出端输出的尺寸为H×W×3的特征图记为ID5,将ID5作为RGB图像对应的图像退化信息;对输入到图像生成器网络中的RGB图像与其对应的图像退化信息进行逐元素相加操作,将得到的图像作为图像生成器网络输出的增强结果图像;
上述,图像鉴别器网络包括5个第九卷积块和5个第十卷积块,由5个第九卷积块构成图像鉴别器网络中的编码网络,由5个第十卷积块构成图像鉴别器网络中的特征输出模块;第1个第九卷积块的输入通道数为3、输出通道数为32,第1个第九卷积块的输入端同时接收一幅尺寸为H×W的RGB图像的R、G、B三个通道,将第1个第九卷积块的输出端输出的尺寸为H×W×32的特征图记为IDis1;第2个第九卷积块的输入通道数为32、输出通道数为64,第2个第九卷积块的输入端接收IDis1,将第2个第九卷积块的输出端输出的尺寸为的特征图记为IDis2;第3个第九卷积块的输入通道数为64、输出通道数为128,第3个第九卷积块的输入端接收IDis2,将第3个第九卷积块的输出端输出的尺寸为的特征图记为IDis3;第4个第九卷积块的输入通道数为128、输出通道数为256,第4个第九卷积块的输入端接收IDis3,将第4个第九卷积块的输出端输出的尺寸为的特征图记为IDis4;第5个第九卷积块的输入通道数为256、输出通道数为512,第5个第九卷积块的输入端接收IDis4,将第5个第九卷积块的输出端输出的尺寸为的特征图记为IDis5;第1个第十卷积块的输入通道数为32、输出通道数为1,第1个第十卷积块的输入端接收IDis1,将第1个第十卷积块的输出端输出的尺寸为H×W×1的特征图记为IDr1;第2个第十卷积块的输入通道数为64、输出通道数为1,第2个第十卷积块的输入端接收IDis2,将第2个第十卷积块的输出端输出的尺寸为的特征图记为IDr2;第3个第十卷积块的输入通道数为128、输出通道数为1,第3个第十卷积块的输入端接收IDis3,将第3个第十卷积块的输出端输出的尺寸为的特征图记为IDr3;第4个第十卷积块的输入通道数为256、输出通道数为1,第4个第十卷积块的输入端接收IDis4,将第4个第十卷积块的输出端输出的尺寸为的特征图记为IDr4;第5个第十卷积块的输入通道数为512、输出通道数为1,第5个第十卷积块的输入端接收IDis5,将第5个第十卷积块的输出端输出的尺寸为的特征图记为IDr5;图像鉴别器网络的输出端输出IDr1、IDr2、IDr3、IDr4、IDr5。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211343922.3/1.html,转载请声明来源钻瓜专利网。