[发明专利]一种基于深度学习的试卷自动转录系统及方法在审
申请号: | 201910970234.1 | 申请日: | 2019-10-12 |
公开(公告)号: | CN110781648A | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 严军峰;侯冲;陈家海;叶家鸣;吴波 | 申请(专利权)人: | 安徽七天教育科技有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06K9/34;G06N3/04;G06N3/08 |
代理公司: | 11504 北京力量专利代理事务所(特殊普通合伙) | 代理人: | 姚远方 |
地址: | 230012 安徽省合肥市新站区铜*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 试卷 转录 图像数据 检测 扫描 图像目标检测 图像 数据自动化 方式获取 图片内容 转录系统 后处理 文字行 拍照 语文 数学 拍摄 英语 转换 学习 图片 | ||
1.一种基于深度学习的试卷自动转录系统及方法,其特征在于:该系统基于深度学习技术,主要包含数据自动化生成、图表检测、文字行检测、公式检测、OCR识别和后处理等步骤。
2.根据权利要求1所述的一种基于深度学习的试卷自动转录的方法,其特征在于:所述主要特征具体描述为:使用仿真程序自动化生成文字行检测、图表检测和OCR等算法需要的训练数据,图表检测负责将试卷中图片与文字区域分离,文字行和公式检测负责对试卷中所有文字行(公式)进行检测,OCR识别负责对检测到的文字行和公式进行识别,后处理过程将识别与检测结果重新排版,并按试卷原样格式输出Word格式。
3.根据权利要求1所述的一种基于深度学习的试卷自动转录的方法,其特征在于:所述数据自动化生成具体描述为:使用程序设计语言自动生成和真实样本高度相似的训练数据,通过程序控制,在仿真数据过程中,随机生成指定数量的包含图表、文字行、公式等在内的各种版面试卷图片及label数据。
4.根据权利要求1所述的一种基于深度学习的试卷自动转录的方法,其特征在于:所述图表检测具体描述为:使用轻量级的SSD-Mobilenetv2网络作为图表检测网络,输入图像大小为224x224,使用Mobilenetv2作为主干网络提取特征,基于SSD的多层特征分别对图像中的图表区域进行检测,从而得到图表区域位置坐标信息。
5.根据权利要求1所述的一种基于深度学习的试卷自动转录的方法,其特征在于:所述文字行检测具体描述为:使用自然场景下的文字行检测算法Advance EAST作为文字行检测网络,试卷图片在拍摄或扫描过程可能存在摆放位置倾斜等情况,此时如果使用基于两点定位的算法则会出现对文字行定位不准的情况,因此本方法中对文字行定位使用四点定位算法,当图片存在倾斜时,对文字行四点坐标进行透视变换即可将文字行区域摆正;本方法使用1280x192大小分辨率图像作为输入,对图像中所有文字行定位,从而得到试卷图像中文字行位置坐标信息,并将该坐标还原到原始图像区域进行透视变换。考虑到文字行中公式高度大于文字行高度问题,对文字行坐标进行5个像素点的外扩,从而保证从原始图像截取出来的每行文字中包括完整公式区域。
6.根据权利要求1所述的一种基于深度学习的试卷自动转录的方法,其特征在于:所述公式检测具体描述为:该步骤使用CTPN算法作为公式检测网络,以文字行检测结果输出为输入,从而对每个文字行中是否存在公式进行检测,从而区分出当前输入文字行中文字区域和公式区域位置坐标。
7.根据权利要求1所述的一种基于深度学习的试卷自动转录的方法,其特征在于:所述OCR识别具体描述为:此处OCR识别分为文字识别和公式识别两种,经过文字行检测和公式检测可以得到文字行中文字区域和公式区域位置坐标,并根据坐标从原图将相应区域单独裁剪,文字区域输入到文字识别引擎识别,公式区域输入到公式引擎识别,通过单独的两个分支实现试卷中所有字符与公式识别。
8.根据权利要求1所述的一种基于深度学习的试卷自动转录的方法,其特征在于:所述后处理具体描述为:根据图表检测、文字识别和公式识别等结果,对识别结果重新排版并按照原始试卷版面输出Word版本转录结果。包括以下具体步骤:
步骤一、仿真训练数据:本方法面向试卷自动转录过程涉及的所有检测与识别模型,本方法需要单独训练5种不同模型,每种模型都需要大量训练数据作为支撑,手动标注较为耗时,因此通过本方法中数据自动生成程序可以方便的仿真5种模型需要的批量训练数据;
数据生成过程按照图表检测、文字行检测、公式检测、文字识别和公式识别的顺序依次仿真,检测数据label信息为图表或文字行的坐标信息,OCR相关识别的label信息为图片上对应的文字字符串在字典中的索引。仿真程序中自带了部分数据增强功能,包括模糊化处理和添加噪音数据等过程,仿真过程只需指定样本总量并运行对应的仿真程序即可生成批量训练数据;
步骤二、数据预处理:结合常用试卷板式,本次训练数据中,图表检测输入图像大小为224x224,文字行检测输入图像大小为1280x192,OCR识别输入图像高度为32像素,并将图像归一化到-1到1之间,训练过程以batchsize为基本输入,每个batchsize随机从原始图片中选择,并随机添加高斯模糊化、对比度、明亮度和试卷裁剪等数据增强操作;
步骤三、训练神经网络:按照上述步骤,依次训练图表检测、文字行检测、公式检测和OCR识别模型,该步骤整体采用端到端的训练模式,网络超参数设置如下:
(1)、学习率:初始学习率设置为0.01,每训练10轮减小10%;
(2)、优化器:adam或sgd优化器(实施过程根据模型训练情况决定);
(3)、其它:批处理大小设置为8,根据显存大小不同而不同;总共训练轮数为200;
步骤四、后处理:将上述模型转为pb文件,并按顺序依次拼接,将前一步模型输出作为下一步模型输入,最后将识别结果重新排版并输出Word格式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽七天教育科技有限公司,未经安徽七天教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910970234.1/1.html,转载请声明来源钻瓜专利网。