[发明专利]一种矿井目标智能检测与识别方法有效
申请号: | 201910847253.5 | 申请日: | 2019-09-09 |
公开(公告)号: | CN110569843B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 张帆;栾佳星 | 申请(专利权)人: | 中国矿业大学(北京) |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 矿井 目标 智能 检测 识别 方法 | ||
1.一种矿井目标智能检测与识别方法,其特征在于,所述方法包括以下步骤:
步骤1:制作矿井数据集,包括训练集和测试集,所述矿井数据集为视频图像采集设备采集到的矿井图像,每张矿井图像包括人员、设备和文本多个目标,其中,每个人员和设备目标用2个参数(gi,Ci)表示,gi表示目标真实框的坐标信息,Ci表示目标的真实类别,每个文本目标用3个参数(gi,Ci,lk)表示,lk表示文本目标中的文本序列,并在整幅图像以一定步长生成真实框;
步骤2:建立矿井网络模型,所述矿井网络模型包括公共特征提取网络、矿井目标检测网络和矿井文本识别网络,其中,所述公共特征提取网络提取特征图,分别输入到所述矿井目标检测网络和矿井文本识别网络,矿井目标检测网络输出人员、设备和文本的预测框,矿井文本识别网络将矿井目标检测网络输出的文本预测框信息和公共特征提取网络输出的特征图作为输入,输出文本识别结果;
步骤3:网络训练,所述矿井网络模型采用端到端的训练方法,利用步骤1中所述训练集对步骤2中所述公共特征提取网络、矿井目标检测网络和矿井文本识别网络进行训练,输出所述人员、设备和文本的预测框,以及文本预测框的文本识别结果;
步骤4:网络优化,利用批量随机梯度下降法优化所述矿井网络模型的参数;
步骤5:目标检测与识别,利用训练好的所述矿井网络模型对所述测试集进行检测,输出所述人员、设备、文本的预测框和所述文本预测框的文本识别结果;其特征还在于,
步骤2中的所述矿井网络模型,其中,所述公共特征提取网络采用具有残差结构的卷积网络,生成3个不同尺度的特征图;以及,
步骤2中的所述矿井网络模型,其中,所述矿井目标检测网络包括候选框生成模块、候选框类别及位置预测模块和非极大值抑制模块,以公共特征提取网络生成的特征图作为输入;进一步包括以下子步骤:
2.1所述候选框生成模块采用维度聚类的方法分别在所述3个不同尺度的特征图的每一个网格上生成3个不同尺寸的候选框;
2.2所述候选框类别及位置预测模块计算每个网格上不同候选框的目标存在可能性,对每个网格上目标存在可能性最大的候选框进行类别及位置预测;
2.3所述非极大值抑制模块将真实框和经过类别及位置预测的候选框进行重叠比例计算,保留与真实框最接近的预测框,得到目标检测结果;以及,
步骤2中所述矿井网络模型,其中,所述矿井文本识别网络包括文本特征图抽取模块、特征序列提取模块、序列标注模块和序列转录模块,以公共特征提取网络提取的特征图作为输入,进一步包括以下子步骤:
2.4所述文本特征图抽取模块根据所述矿井目标检测网络得到的文本类预测信息,从公共特征提取网络提取的特征图中抽取出所有文本特征图,并将所述文本特征图对应的原始图像中的文本区域在固定长宽比的情况下缩放到相同高度;
2.5所述特征序列提取模块将步骤2.4中得到的所述文本特征图,经过卷积层特征提取,输出大小为(1,x,512)的特征图,其中,x表示文本特征图的不固定长度,512表示由512个卷积核卷积得到的512个通道,提取特征图的每一列作为特征向量序列;
2.6所述序列标注模块的网络结构采用门控循环单元的循环网络,所述特征序列按每一列顺序输入所述序列标注模块,输出序列预测信息;
2.7所述序列转录模块将序列预测信息经过变换,删除冗余信息,得到最后的文本识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学(北京),未经中国矿业大学(北京)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910847253.5/1.html,转载请声明来源钻瓜专利网。