[发明专利]一种面向移动端的试卷版面图文实时检测方法在审

专利信息
申请号: 201910884273.X 申请日: 2019-09-19
公开(公告)号: CN110705398A 公开(公告)日: 2020-01-17
发明(设计)人: 严军峰;吕达;陈家海;叶家鸣;吴波 申请(专利权)人: 安徽七天教育科技有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/46;G06K9/62
代理公司: 11504 北京力量专利代理事务所(特殊普通合伙) 代理人: 姚远方
地址: 230012 安徽省合肥市新站区铜*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 移动端 图像数据 试卷 数据网络传输 图像目标检测 移动端设备 后处理 摄像头 仿真数据 目标检测 实时检测 输出结果 数据获取 图片区域 图片特征 网络传输 网络架构 用户体验 低延迟 内置 图文 拍照 版面 检测 移动 预测 联合
【权利要求书】:

1.一种面向移动端的试卷版面图文实时检测方法,其特征在于:该系统基于MobileNetV2和PeleeNet网络架构设计,主要包含仿真数据生成、图片特征提取、ResBlock模块、联合预测和后处理部分。

2.根据权利要求1所述的一种面向移动端的试卷版面图文实时检测方法,其特征在于:所述仿真数据自动生成中仿真程序生成需要的批量训练数据,生成的仿真数据原则上与真实样本数据高度相似,通过指定需要的总样本量,仿真程序可自动生成包含各种常见样式在内的多种版面试卷。

3.根据权利要求1所述的一种面向移动端的试卷版面图文实时检测方法,其特征在于:所述图片特征提取使用轻量级的MobileNetV2提取图片特征,作为面向移动端部署的实时检测模型,由于MobileNetV2本身就是面向移动端的轻量级网络,其模型可以同时做分类与检测任务,因此用MobileNetV2提取图片特征可以从网络主要结构层面降低参数量。本方法对其进行改进,去掉原始网络中最后两层conv2d和avgpool层,保留第3、第4、第5、第6和第7个bottleneck输出特征图作为后续融合使用,这5个不同状态保留的特征图大小不同,分别对应大小不同目标的预测,并且具有不同的纹理、边缘等信息,同时,将最后一个bottleneck块的输出通道数降为16,从而降低最后一层计算量。

4.根据权利要求1所述的一种面向移动端的试卷版面图文实时检测方法,其特征在于:所述ResBlock参照InceptionV3和PeleeNet网络,上述提取到的5个用于检测的特征图,在实施预测之前构建一个ResBlock块,该模块中将3x3卷积替换为两个串联的1x3和3x1大小卷积。根据InceptionV3思想,将一个较大的二维卷积拆分成两个较小的一维卷积,一方面节约了大量参数加速运算并减轻了过拟合,同时增加了一层非线性扩展模型表达能力,其可以处理更多、更丰富的空间特征,增加特征多样性。同时,在原有1x1卷积之前新增MAX-POOL层(根据InceptionV3思想,添加该层可以提升检测效果),利用原有1x1卷积降低通道数,并且新增5x5卷积分支,使之与InceptionV3网络子模块接近,最后将3个不同分支特征图在维度通道拼接,即可输出用于检测与分类的feature map。

5.根据权利要求1所述的一种面向移动端的试卷版面图文实时检测方法,其特征在于:所述联合预测部分在每个ResBlock块之后的特征图上分别单独做分类与检测任务,对于检测任务最后全局NMS即可输出最终检测结果与目标类别。

6.根据权利要求1所述的一种面向移动端的试卷版面图文实时检测方法,其特征在于:所述后处理过程基于TensorFlow完成上述网络架构,训练得到若干.ckpt结尾模型文件,此文件通常较大,而且无法直接在移动设备部署。后处理过程需要将最终训练的模型转为pb文件,此时pb文件大小大约只有原模型文件的1/2左右,同时利用该pb文件在图片上测试模型效果。本次移动端模型使用tflite,因此最后一步将pb文件转换成.tflite结尾文件,而且该文件大小约为原始模型大小的1/4,很适合在移动端部署。在部署之前,需要验证转换后的tflite文件性能是否有所损失。验证方法:使用同一张图片分别输入到pb和tflite做预测(保证输入相同),对比两模型输出的数值是否一致,也称为一致性验证,一般而言pb与tflite输出数值的前六位会保持一致,从第七位会有所差异,表现在最终结果上差异很小,因此一致性验证过程,只要对比数值的前六位一致即认为两模型性能一致,在性能一致的前提下,tflite文件模型大小更小,因此适合部署在移动端。

7.一种面向移动端的试卷版面图文实时检测方法,其特征在于:包括以下具体步骤:

S1:仿真训练数据:本方法为一种面向移动端的试卷版面图文实时检测方法,本方法目标是设计一种面向移动端的试卷版面图文实时检测方法,由于图文检测中,需要同时对试卷版面中的文字区域和图片区域(在本发明中试卷版面中出现的图片和表格统称为图片)进行检测,并且给出检测区域为文字或者图片区域的分类标签。因此在利用本方法中的仿真程序仿真训练样本过程中,数据的标签信息需要记录到与图片同名的.txt文件。在.txt文件中每行信息按照[xmin,ymin,xmax,ymax,label]的形式存储,label取值为0或1,0代表文字区域,1代表图片区域,在仿真图片过程,严格按照试卷版面排版标准,考虑不同试卷版面排版,按照大于0.8的概率仿真双栏版面图像数据,并考虑图片与文字可能分布范围等;

S2:数据预处理:将仿真后的试卷中各版面图片数据与对应的标签文件整合到train.txt、test.txt和val.txt中,按照8:1:1的比例随机选择存放,每个文件中依次为图片路径、坐标信息、标签信息,每行代表一个版面图像及其图像中所有文字和图片位置信息坐标及对应的label;

S3:训练神经网络:将网络结构按照上述描述架构整合,产生新的面向移动端试卷版面图文检测算法,整体采用端到端的训练模式,网络超参数设置如下:

(1)、学习率:初始学习率设置为0.01,每训练10轮减小10%;

(2)、优化器:使用adam或sgd优化器(实施过程根据模型训练情况决定);

(3)、其它:batchsize大小设置为8,与显存容量有关,总共训练轮数为200;

S4:模型预测输出:选择最优模型,将其转换为pb格式文件,并利用pb模型在验证集测试效果,效果达标后将pb文件转换成tflite模型文件并进行pb与tflite文件的效果一致性验证,验证通过后的tflite文件为最终在移动端部署的模型文件。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽七天教育科技有限公司,未经安徽七天教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910884273.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top