[发明专利]一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法在审

专利信息
申请号: 202110051819.0 申请日: 2021-01-15
公开(公告)号: CN112861919A 公开(公告)日: 2021-05-28
发明(设计)人: 杨惠珍;翟羽佳;李源 申请(专利权)人: 西北工业大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 西北工业大学专利中心 61204 代理人: 金凤
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 改进 yolov3 tiny 水下 声纳 图像 目标 检测 方法
【权利要求书】:

1.一种基于改进YOLOv3-tiny的水下声纳图像目标检测方法,其特征在于,包括以下步骤:

步骤1:通过二维成像声纳获取多幅原生声纳图像;

步骤2:对步骤1获取的原生声纳图像采用图形变换方法随机进行变换,变换后的图像和原生声纳图像数据共同构成声纳图像数据集;将声纳图像数据集的所有图像尺寸变换为512×224;将声纳图像数据集划分为声纳图像训练集和声纳图像测试集,声纳图像训练集中图像数量大于声纳图像测试集中图像数量;

步骤3:对声纳图像数据集图像中目标的类别和位置进行标注;

如果声纳图像数据集图像中不存在目标,则该图像定义为负样本;

如果声纳图像数据集图像中存在目标,则该图像定义为正样本,同时对目标标注类别;用边界框标记目标的位置,边界框为目标最小外接矩形,目标位置表示为边界框的四个顶点的坐标:Xmax,Xmin,Ymax,Ymin,归一化如下:

x=(Xmax+Xmin)/2*Sx

y=(Ymax+Ymin)/2*Sy

w=(Xmax-Xmin)/Sx

h=(Ymax-Ymin)/Sy (1)

其中Sx为目标所在图像的长度,Sy为目标所在图像的宽度;(x,y)为归一化的边界框中心坐标,(w,h)为归一化的边界框宽度和高度;

步骤4:采用多尺度特征融合策略构建改进YOLOv3-tiny网络;

步骤4-1:融合YOLOv3-tiny网络第8层和第18层的特征,并在YOLOv3-tiny网络已有两个预测层的基础上新增第3个预测层;

从YOLOv3-tiny网络第8层引出的特征图维度为64×28×128;

从YOLOv3-tiny网络第18层引出的特征图维度为32×14×256,经过一个1×1×128的卷积层和上采样层之后得到64×28×128的特征图,将得到的64×28×128的特征图与第8层引出的特征图进行同维度拼接,再经过一个3×3×128和一个1×1×18的卷积层,最终输出维度为64×28×18的特征图,即为新增的第3个预测层;

此时,YOLOv3-tiny网络的3个预测层的特征图分尺寸分别为16×7、32×14和64×28;

改进YOLOv3-tiny网络的特征图尺寸为32×14的预测层是将YOLOv3-tiny网络的第15层的特征图引出,通过一个1×1×128的卷积层与一个上采样层之后与第10层的特征图进行同维度拼接,再经过一个3×3×256和一个1×1×18的卷积层,最终输出维度为32×14×18的预测层;

步骤4-2:删除特征图尺寸为16×7的预测层;得到改进YOLOv3-tiny网络;

步骤5:使用声纳图像训练集对改进YOLOv3-tiny网络进行训练,得到最终训练完成的改进YOLOv3-tiny网络模型;

步骤6:使用最终训练完成的改进YOLOv3-tiny网络模型预测目标的位置坐标和置信度;

步骤6-1:采用K-means++聚类方法,对声纳图像数据集中图像的边界框进行聚类,得到22×21、34×32、40×39、42×43、46×47、57×54六种尺寸的先验框;

步骤6-2:将22×21、34×32、40×39三种尺寸的先验框分配给特征图尺寸为32×14的预测层;将42×43、46×47、57×54三种尺寸的先验框分配给特征图尺寸为64×28的预测层;

步骤6-3:将尺寸为32×14的预测层特征图划分成32×14个网格单元,根据目标所在边界框中心坐标,将每个目标分配到对应位置的网格单元,该对应位置的网格单元使用步骤6-2给特征图尺寸为32×14的预测层分配的先验框预测目标的位置坐标和置信度;

将尺寸为64×28的预测层特征图划分成64×28个网格单元,根据目标所在边界框中心坐标,将每个目标分配到对应位置的网格单元,该对应位置的网格单元使用步骤6-2给特征图尺寸为64×28的预测层分配的先验框预测目标的位置坐标和置信度;

预测目标的位置坐标和置信度的计算公式如下:

其中,Cx和Cy是网格单元的左上角坐标,改进YOLOv3-tiny网络中每个网格单元在特征图中的宽和高都为1;Pw和Ph是先验框在预测层特征图中的映射宽度和高度,(tx,ty,tw,th,to)表示YOLOv3-tiny的回归预测输出;σsigmoid表示sigmoid激活函数,σlogistic表示logistic回归;e表示自然指数;(bx,by)表示预测结果框的中心坐标偏移值;(bw,bh)表示归一化后预测结果框的宽度和高度;c表示置信度;通过式(2)对YOLOv3-tiny的回归预测输出进行解码,获得预测结果框的(bx,by,bw,bh,c);

步骤6-4:对所有预测的目标位置坐标和置信度结果采用非极大值抑制方法,输出置信度最大的预测结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110051819.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top