[发明专利]一种基于Faster-RCNN对BI图标题检测的方法有效

专利信息
申请号: 202111146554.9 申请日: 2021-09-28
公开(公告)号: CN113807463B 公开(公告)日: 2023-10-17
发明(设计)人: 郝德浩;朱西华;雷坤东;孙力泽 申请(专利权)人: 中电万维信息技术有限责任公司
主分类号: G06V10/764 分类号: G06V10/764;G06V10/774;G06V10/25;G06F16/951;G06N3/0464;G06N3/08
代理公司: 兰州嘉诺知识产权代理事务所(普通合伙) 62202 代理人: 吴迪
地址: 730000 甘肃省兰州市城关*** 国省代码: 甘肃;62
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 faster rcnn bi 图标 检测 方法
【权利要求书】:

1.一种基于Faster-RCNN对BI图标题检测的方法,其特征在于包括如下步骤:

A、训练数据收集与标注

利用爬虫在相关网站收集BI图集,进行训练集和验证集划分,按训练集与验证集的比重为8:1配比,将目标数据分为三类,分为一级标题、二级标题和三级标题;一级标题为BI图的主标题,二级标题为BI图的分支标题,三级标题为BI图对应图表或文字的小标题;

B、改进Faster-RCNN算法模型

采用Two-Stage Detection模型中的Faster-RCNN作为Baseline,具体网络结构与改进如下:

B1、Backbone网络模型

Backbone采用ResNet-50,ResNet称为深度残差网络,50为网络层数;

B2、FPN结构

在目标检测领域中,使用FPN将Backbone模型最后一层特征图谱进行采样,并于每一个金字塔阶级的特征图进行合并,得到新的表征能力更强的不同金字塔层次的特征图谱,然后将ROI按照尺寸分别映射到特征图上,再将每个特征图谱上进行类别和位置预测;

B3、DCN可变性卷积

可变形卷积通过在卷积层中插入偏移值来增强网络的特征提取能力;

B4、ROIAlign层

Faster-RCNN在检测过程中添加ROIPooling层,进行后续的分类和包围框的回归操作,每一个候选区域保持浮点数边界不做量化;将候选区域分割成k*k个单元,每个单元的边界也不做量化;在每个单元中计算固定四个坐标位置,用双线内插法计算出这四个位置的值,然后最大池化操作;

B5、OHEM算法

对全图标题检测时图片其他文字信息产生干扰,干扰文字信息成为难例负样本,加入OHEM算法区分标题文字和其他文字;

C、模型训练

使用MMDetection框架搭建,并在GPU显卡上进行单卡训练;使用Albumentations第三方库操作,进行随机亮度对比度RandomBrightnessContrast、颜色抖动RGBShift、色调饱和度增强HueSaturationValue、随机通道交换ChannelShuffle、锐化IAASharpen、灰度转换ToGray等操作;

使用Anchor将高宽比从原来的0.5、1、2,改为0.1、0.3、0.5、1;在Anchor编码阶段,Anchor与目标框的IOU值大于0.5的设置为正样本;学习率采用Warm up,初始学习率设置为0.001,Batch Size设置为2;Epoch设置为15;

D、训练实验结果

超参数定义完成后,对网络模型进行训练,根据每一次迭代绘制loss曲线与准确率,目标检测领域选用评价指标为mAP,根据mAP指标选取测试集图片进行测试,优化BI图标题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电万维信息技术有限责任公司,未经中电万维信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111146554.9/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top