[发明专利]一种基于感知驱动的弱监督水下图像增强方法在审

申请号：	202211343922.3	申请日：	2022-10-31
公开（公告）号：	CN115731121A	公开（公告）日：	2023-03-03
发明（设计）人：	姜求平;康耀祖;邵枫	申请（专利权）人：	宁波大学
主分类号：	G06T5/00	分类号：	G06T5/00;G06N3/08;G06N3/0464
代理公司：	宁波奥圣专利代理有限公司 33226	代理人：	周珏
地址：	315211 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于感知驱动监督水下图像增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于感知驱动的弱监督水下图像增强方法，其包括训练阶段和测试阶段，其特征在于在训练阶段中，首先构建一个第一训练集和一个第二训练集，第一训练集包含数个图像子集，每个图像子集包含数对图像对，每对图像对有两幅水下增强图像，不同图像子集中的水下增强图像的场景各不相同，同一个图像子集中的水下增强图像的场景为同一个场景，每对图像对的两幅水下增强图像所采用的水下图像增强方法不同，第二训练集包含数幅不同场景下的原始水下图像和相同数量的不同场景下的自然图像，其中，水下增强图像、原始水下图像和自然图像的尺寸相同；并构建三个神经网络，第1个神经网络作为图像质量评价网络，第2个神经网络作为图像生成器网络，第3个神经网络作为图像鉴别器网络；然后将第一训练集中的每对图像对的每幅水下增强图像输入到图像质量评价网络中进行网络训练，每轮训练结束后图像质量评价网络输出第一训练集中的每对图像对的每幅水下增强图像的质量预测分数，每轮训练结束后针对第一训练集中的每对图像对计算质量损失函数值，在多轮训练结束后训练得到图像质量评价网络训练模型；再将第二训练集中的每幅原始水下图像输入到图像生成器网络中进行网络训练，每轮训练结束后图像生成器网络输出第二训练集中的每幅原始水下图像对应的增强结果图像，随后将第二训练集中的每幅原始水下图像和对应的增强结果图像以及一幅自然图像分别输入到图像鉴别器网络中进行网络训练，每轮训练结束后先计算图像鉴别器网络的损失函数值，后计算图像生成器网络的损失函数值，交叉训练图像生成器网络和图像鉴别器网络多轮后训练得到图像生成器网络训练模型和图像鉴别器网络训练模型，其中，计算图像生成器网络的损失函数值时考虑了将第二训练集中的原始水下图像输入到图像质量评价网络训练模型中输出的原始水下图像的质量预测分数以及将第二训练集中的原始水下图像对应的增强结果图像输入到图像质量评价网络训练模型中输出的增强结果图像的质量预测分数；在测试阶段中，将测试用水下图像输入到图像生成器网络训练模型中，图像生成器网络训练模型输出测试用水下图像的增强结果；

上述，图像质量评价网络包括1个第一卷积块、4个第二卷积块、12个第三卷积块、1个全局平均池化模型、3个全连接层，由1个第一卷积块、4个第二卷积块、12个第三卷积块构成图像质量评价网络中的编码网络，由1个全局平均池化模型和3个全连接层构成图像质量评价网络中的回归网络；第一卷积块的输入通道数为3、输出通道数为64，第一卷积块的输入端同时接收一幅尺寸为H×W的RGB图像的R、G、B三个通道，将第一卷积块的输出端输出的尺寸为的特征图记为I_Q1；第1个第二卷积块的输入通道数为64、输出通道数为256，第1个第二卷积块的输入端接收I_Q1，将第1个第二卷积块的输出端输出的尺寸为的特征图记为I_Q2；第1个第三卷积块的输入通道数为256、输出通道数为256，第1个第三卷积块的输入端接收I_Q2，将第1个第三卷积块的输出端输出的尺寸为的特征图记为I_Q3；第2个第三卷积块的输入通道数为256、输出通道数为256，第2个第三卷积块的输入端接收I_Q3，将第2个第三卷积块的输出端输出的尺寸为的特征图记为I_Q4；第2个第二卷积块的输入通道数为256、输出通道数为512，第2个第二卷积块的输入端接收I_Q4，将第2个第二卷积块的输出端输出的尺寸为的特征图记为I_Q5；第3个第三卷积块的输入通道数为512、输出通道数为512，第3个第三卷积块的输入端接收I_Q5，将第3个第三卷积块的输出端输出的尺寸为的特征图记为I_Q6；第4个第三卷积块的输入通道数为512、输出通道数为512，第4个第三卷积块的输入端接收I_Q6，将第4个第三卷积块的输出端输出的尺寸为的特征图记为I_Q7；第5个第三卷积块的输入通道数为512、输出通道数为512，第5个第三卷积块的输入端接收I_Q7，将第5个第三卷积块的输出端输出的尺寸为的特征图记为I_Q8；第3个第二卷积块的输入通道数为512、输出通道数为1024，第3个第二卷积块的输入端接收I_Q8，将第3个第二卷积块的输出端输出的尺寸为的特征图记为I_Q9；第6个第三卷积块的输入通道数为1024、输出通道数为1024，第6个第三卷积块的输入端接收I_Q9，将第6个第三卷积块的输出端输出的尺寸为的特征图记为I_Q10；第7个第三卷积块的输入通道数为1024、输出通道数为1024，第7个第三卷积块的输入端接收I_Q10，将第7个第三卷积块的输出端输出的尺寸为的特征图记为I_Q11；第8个第三卷积块的输入通道数为1024、输出通道数为1024，第8个第三卷积块的输入端接收I_Q11，将第8个第三卷积块的输出端输出的尺寸为的特征图记为I_Q12；第9个第三卷积块的输入通道数为1024、输出通道数为1024，第9个第三卷积块的输入端接收I_Q12，将第9个第三卷积块的输出端输出的尺寸为的特征图记为I_Q13；第10个第三卷积块的输入通道数为1024、输出通道数为1024，第10个第三卷积块的输入端接收I_Q13，将第10个第三卷积块的输出端输出的尺寸为的特征图记为I_Q14；第4个第二卷积块的输入通道数为1024、输出通道数为2048，第4个第二卷积块的输入端接收I_Q14，将第4个第二卷积块的输出端输出的尺寸为的特征图记为I_Q15；第11个第三卷积块的输入通道数为2048、输出通道数为2048，第11个第三卷积块的输入端接收I_Q15，将第11个第三卷积块的输出端输出的尺寸为的特征图记为I_Q16；第12个第三卷积块的输入通道数为2048、输出通道数为2048，第12个第三卷积块的输入端接收I_Q16，将第12个第三卷积块的输出端输出的尺寸为的特征图记为I_Q17；全局平均池化模型的输入通道数为2048、输出通道数为2048，全局平均池化模型的输入端接收I_Q17，将全局平均池化模型的输出端输出的尺寸为1×1×2048的特征向量记为I_gap1；第1个全连接层的输入通道数为2048、输出通道数为4096，第1个全连接层的输入端接收I_gap1，将第1个全连接层的输出端输出的尺寸为1×1×2048的特征向量记为I_f1；第2个全连接层的输入通道数为4096、输出通道数为4096，第2个全连接层的输入端接收I_f1，将第2个全连接层的输出端输出的尺寸为1×1×4096的特征向量记为I_f2；第3个全连接层的输入通道数为4096、输出通道数为1，第3个全连接层的输入端接收I_f2，第3个全连接层的输出端输出一个数值，该数值代表输入到图像质量评价网络中的RGB图像的质量预测分数；

上述，图像生成器网络包括1个第四卷积块、4个第五卷积块、4个第六卷积块、4个第七卷积块、1个第八卷积块，由第四卷积块和4个第五卷积块构成图像生成器网络中的编码网络，由4个第六卷积块构成图像生成器网络中的通道注意力模块，由4个第七卷积块和第八卷积块构成图像生成器网络中的解码网络；第四卷积块的输入通道数为3、输出通道数为32，第四卷积块的输入端同时接收一幅尺寸为H×W的RGB图像的R、G、B三个通道，将第四卷积块的输出端输出的尺寸为H×W×32的特征图记为I_E1；第1个第五卷积块的输入通道数为32、输出通道数为32，第1个第五卷积块的输入端接收I_E1，将第1个第五卷积块的输出端输出的尺寸为H×W×32的特征图记为I_E2；第2个第五卷积块的输入通道数为32、输出通道数为64，第2个第五卷积块的输入端接收I_E2，将第2个第五卷积块的输出端输出的尺寸为的特征图记为I_E3；第3个第五卷积块的输入通道数为64、输出通道数为128，第3个第五卷积块的输入端接收I_E3，将第3个第五卷积块的输出端输出的尺寸为的特征图记为I_E4；第4个第五卷积块的输入通道数为128、输出通道数为256，第4个第五卷积块的输入端接收I_E4，将第4个第五卷积块的输出端输出的尺寸为的特征图记为I_E5；第1个第六卷积块的输入通道数为32、输出通道数为32，第1个第六卷积块的输入端接收I_E2，将第1个第六卷积块的输出端输出的尺寸为H×W×32的特征图记为I_C1；第2个第六卷积块的输入通道数为64、输出通道数为64，第2个第六卷积块的输入端接收I_E3，将第2个第六卷积块的输出端输出的尺寸为的特征图记为I_C2；第3个第六卷积块的输入通道数为128、输出通道数为128，第3个第六卷积块的输入端接收I_E4，将第3个第六卷积块的输出端输出的尺寸为的特征图记为I_C3；第4个第六卷积块的输入通道数为256、输出通道数为256，第4个第六卷积块的输入端接收I_E5，将第4个第六卷积块的输出端输出的尺寸为的特征图记为I_C4；第1个第七卷积块的输入通道数为256、输出通道数为256，第1个第七卷积块的输入端接收I_E5，将第1个第七卷积块的输出端输出的尺寸为的特征图记为I_D1；第2个第七卷积块的输入通道数为512、输出通道数为128，第2个第七卷积块的输入端接收对I_D1和I_C4进行拼接操作后得到的尺寸为的特征图I_DC1，将第2个第七卷积块的输出端输出的尺寸为的特征图记为I_D2；第3个第七卷积块的输入通道数为256、输出通道数为64，第3个第七卷积块的输入端接收对I_D2和I_C3进行拼接操作后得到的尺寸为的特征图I_DC2，将第3个第七卷积块的输出端输出的尺寸为的特征图记为I_D3；第4个第七卷积块的输入通道数为128、输出通道数为32，第4个第七卷积块的输入端接收对I_D3和I_C2进行拼接操作后得到的尺寸为的特征图I_DC3，将第4个第七卷积块的输出端输出的尺寸为H×W×32的特征图记为I_D4；第八卷积块的输入通道数为64、输出通道数为3，第八卷积块的输入端接收对I_D4和I_C1进行拼接操作后得到的尺寸为H×W×64的特征图I_DC4，将第八卷积块的输出端输出的尺寸为H×W×3的特征图记为I_D5，将I_D5作为RGB图像对应的图像退化信息；对输入到图像生成器网络中的RGB图像与其对应的图像退化信息进行逐元素相加操作，将得到的图像作为图像生成器网络输出的增强结果图像；

上述，图像鉴别器网络包括5个第九卷积块和5个第十卷积块，由5个第九卷积块构成图像鉴别器网络中的编码网络，由5个第十卷积块构成图像鉴别器网络中的特征输出模块；第1个第九卷积块的输入通道数为3、输出通道数为32，第1个第九卷积块的输入端同时接收一幅尺寸为H×W的RGB图像的R、G、B三个通道，将第1个第九卷积块的输出端输出的尺寸为H×W×32的特征图记为I_Dis1；第2个第九卷积块的输入通道数为32、输出通道数为64，第2个第九卷积块的输入端接收I_Dis1，将第2个第九卷积块的输出端输出的尺寸为的特征图记为I_Dis2；第3个第九卷积块的输入通道数为64、输出通道数为128，第3个第九卷积块的输入端接收I_Dis2，将第3个第九卷积块的输出端输出的尺寸为的特征图记为I_Dis3；第4个第九卷积块的输入通道数为128、输出通道数为256，第4个第九卷积块的输入端接收I_Dis3，将第4个第九卷积块的输出端输出的尺寸为的特征图记为I_Dis4；第5个第九卷积块的输入通道数为256、输出通道数为512，第5个第九卷积块的输入端接收I_Dis4，将第5个第九卷积块的输出端输出的尺寸为的特征图记为I_Dis5；第1个第十卷积块的输入通道数为32、输出通道数为1，第1个第十卷积块的输入端接收I_Dis1，将第1个第十卷积块的输出端输出的尺寸为H×W×1的特征图记为I_Dr1；第2个第十卷积块的输入通道数为64、输出通道数为1，第2个第十卷积块的输入端接收I_Dis2，将第2个第十卷积块的输出端输出的尺寸为的特征图记为I_Dr2；第3个第十卷积块的输入通道数为128、输出通道数为1，第3个第十卷积块的输入端接收I_Dis3，将第3个第十卷积块的输出端输出的尺寸为的特征图记为I_Dr3；第4个第十卷积块的输入通道数为256、输出通道数为1，第4个第十卷积块的输入端接收I_Dis4，将第4个第十卷积块的输出端输出的尺寸为的特征图记为I_Dr4；第5个第十卷积块的输入通道数为512、输出通道数为1，第5个第十卷积块的输入端接收I_Dis5，将第5个第十卷积块的输出端输出的尺寸为的特征图记为I_Dr5；图像鉴别器网络的输出端输出I_Dr1、I_Dr2、I_Dr3、I_Dr4、I_Dr5。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于宁波大学，未经宁波大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211343922.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种港口无人集卡多车辆监控及紧急停车系统
下一篇：一种生物特征认证方法和系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T5-00 图像的增强或复原，如从位像到位像地建立一个类似的图形
G06T5-10 .利用非空间域滤波的
G06T5-20 .利用局部操作的
G06T5-40 .使用直方图技术的
G06T5-50 .通过使用多于一幅图像的，例如平均、减少
G06T5-30 ..侵蚀或扩张，如变薄

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于感知驱动的弱监督水下图像增强方法在审

专利文献下载