[发明专利]一种基于Faster-RCNN对BI图标题检测的方法有效
申请号: | 202111146554.9 | 申请日: | 2021-09-28 |
公开(公告)号: | CN113807463B | 公开(公告)日: | 2023-10-17 |
发明(设计)人: | 郝德浩;朱西华;雷坤东;孙力泽 | 申请(专利权)人: | 中电万维信息技术有限责任公司 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06V10/25;G06F16/951;G06N3/0464;G06N3/08 |
代理公司: | 兰州嘉诺知识产权代理事务所(普通合伙) 62202 | 代理人: | 吴迪 |
地址: | 730000 甘肃省兰州市城关*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 faster rcnn bi 图标 检测 方法 | ||
1.一种基于Faster-RCNN对BI图标题检测的方法,其特征在于包括如下步骤:
A、训练数据收集与标注
利用爬虫在相关网站收集BI图集,进行训练集和验证集划分,按训练集与验证集的比重为8:1配比,将目标数据分为三类,分为一级标题、二级标题和三级标题;一级标题为BI图的主标题,二级标题为BI图的分支标题,三级标题为BI图对应图表或文字的小标题;
B、改进Faster-RCNN算法模型
采用Two-Stage Detection模型中的Faster-RCNN作为Baseline,具体网络结构与改进如下:
B1、Backbone网络模型
Backbone采用ResNet-50,ResNet称为深度残差网络,50为网络层数;
B2、FPN结构
在目标检测领域中,使用FPN将Backbone模型最后一层特征图谱进行采样,并于每一个金字塔阶级的特征图进行合并,得到新的表征能力更强的不同金字塔层次的特征图谱,然后将ROI按照尺寸分别映射到特征图上,再将每个特征图谱上进行类别和位置预测;
B3、DCN可变性卷积
可变形卷积通过在卷积层中插入偏移值来增强网络的特征提取能力;
B4、ROIAlign层
Faster-RCNN在检测过程中添加ROIPooling层,进行后续的分类和包围框的回归操作,每一个候选区域保持浮点数边界不做量化;将候选区域分割成k*k个单元,每个单元的边界也不做量化;在每个单元中计算固定四个坐标位置,用双线内插法计算出这四个位置的值,然后最大池化操作;
B5、OHEM算法
对全图标题检测时图片其他文字信息产生干扰,干扰文字信息成为难例负样本,加入OHEM算法区分标题文字和其他文字;
C、模型训练
使用MMDetection框架搭建,并在GPU显卡上进行单卡训练;使用Albumentations第三方库操作,进行随机亮度对比度RandomBrightnessContrast、颜色抖动RGBShift、色调饱和度增强HueSaturationValue、随机通道交换ChannelShuffle、锐化IAASharpen、灰度转换ToGray等操作;
使用Anchor将高宽比从原来的0.5、1、2,改为0.1、0.3、0.5、1;在Anchor编码阶段,Anchor与目标框的IOU值大于0.5的设置为正样本;学习率采用Warm up,初始学习率设置为0.001,Batch Size设置为2;Epoch设置为15;
D、训练实验结果
超参数定义完成后,对网络模型进行训练,根据每一次迭代绘制loss曲线与准确率,目标检测领域选用评价指标为mAP,根据mAP指标选取测试集图片进行测试,优化BI图标题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电万维信息技术有限责任公司,未经中电万维信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111146554.9/1.html,转载请声明来源钻瓜专利网。