[发明专利]基于深度学习的答题卡识别方法及系统有效
申请号: | 202111213616.3 | 申请日: | 2021-10-19 |
公开(公告)号: | CN113657354B | 公开(公告)日: | 2022-01-25 |
发明(设计)人: | 杨泽霖;吴立升;何钢;罗红亮 | 申请(专利权)人: | 深圳市菁优智慧教育股份有限公司 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V10/20;G06V10/764;G06N3/04;G06N3/08 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 杨丹;郝博 |
地址: | 518000 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 答题 识别 方法 系统 | ||
1.一种基于深度学习的答题卡识别方法,其特征在于,该方法包括:
获取答题卡图像信息,其中包括答题卡图像、答题卡的json文件,若答题卡没有对应的json文件则为空;
对所述答题卡图像进行预处理;
利用深度学习模型对预处理后的答题卡图像进行关键点检测,得到答题卡的关键点;
根据所述答题卡的关键点抠出准考证区域及答题区域;
根据所述答题卡图像,查询是否存在对应答题卡的json文件;
若存在,根据json文件存储的答题卡图像数据,检测所述准考证区域及答题区域中的图像内容,利用深度学习图像分类网络对图像内容进行填涂与非填涂的分类,得到识别结果;
若不存在或根据json文件检测发生异常时,利用目标检网络YOLOv4进行文本检测,根据文本检测结果,利用深度学习OCR模型识别答题区域的题号内容,利用深度学习图像分类网络对准考证区域及答题区域进行填涂与非填涂的分类,得到识别结果;
将准考证区域及答题区域的识别结果进行整理,输出答题卡识别结果。
2.根据权利要求1所述的基于深度学习的答题卡识别方法,其特征在于,获取答题卡图像信息,包括:
将答题卡对应的图像信息存储在json文件中;其中,json文件存储的信息包括:题号坐标信息,选项坐标信息,准考证坐标信息,答题区域宽、高,准考证区域宽、高;
对所述答题卡图像进行预处理,包括:
利用OpenCV中的自适应直方图均衡化调节所述答题卡图像的对比度;
利用OpenCV中的均值滤波对所述答题卡图像降噪处理;
将预处理后的答题卡图像按照等比例缩放,其中,最大边为512,最小边长等比缩放。
3.根据权利要求2所述的基于深度学习的答题卡识别方法,其特征在于,利用深度学习模型对预处理后的答题卡图像进行关键点检测,得到答题卡的关键点,包括:
采集一定数量的答题卡图像样本;
利用标注工具标注所述答题卡图像样本中的6个关键点,其中,6个关键点为:准考证区域的黑色边框左上角的第一关键点,准考证区域的黑色边框右上角的第二关键点,答题区域的黑色边框左上角的第三关键点,答题区域的黑色边框右上角的第四关键点,答题区域的黑色边框左下角的第五关键点,答题区域的黑色边框右下角的第六关键点;
以Resnet50+heatmap深度学习模型为骨干框架,将答题卡图像样本输入至深度学习模型进行训练;其中,
heatmap采用高斯分布制作标签,设置正负样本的分区,将正负样本的比重设置为10:1;
通过heatmap输出关键点的位置,通过查找heatmap中响应值最大的点来确定关键点的坐标;
将Resnet50最后一层全连接层去掉,替换为1个卷积层,卷积层输入数据的大小为2048,输出数据大小为6,其中,6表示输出的6个关键点的特征向量;
输出的特征向量经过sigmoid激活后得到6×128×96的heatmap分布图;
在深度学习模型的训练过程中,利用数据在线增强操作调节模型的泛化能力,其中,数据在线增强操作至少包括:随机旋转图像,打乱图像RGB通道,调节图像对比度、亮度、黑暗度仿射变换;
采用迭代式更新方法,根据测试结果将准确率未达到设定值的答题卡图像样本叠加到训练样本中,通过迭代训练更新模型的权重参数,在测试结果达到预设要求时得到训练完成的深度学习模型;
将预处理后的答题卡图像输入至所述训练完成的深度学习模型,进行特征提取,输出6个关键点的特征向量,经过sigmoid激活后得到6×128×96的heatmap分布图,其中,每个通道代表预测一个关键点输出的结果为128×96一张heatmap图,heatmap的值分布在0-1之间,若关键点出现在128×96图像中的一位置的概率越大,位置所在区域的值越接近于1,概率越小,越接近于0或者等于0,将heatmap分布图中概率最大值作为关键点出现的位置,将6个通道中heatmap分布图中概率值最大值作为6个关键点的位置,根据6个关键点的位置计算出在预处理后的答题卡图像中的坐标;
根据坐标中第一、第二、第五、第六关键点的坐标,采用OpenCV中的透视变换将的图像矫正,得到矫正的图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市菁优智慧教育股份有限公司,未经深圳市菁优智慧教育股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111213616.3/1.html,转载请声明来源钻瓜专利网。