[发明专利]一种扫描页的框题方法、系统、终端设备以及存储介质在审
申请号: | 202010598280.6 | 申请日: | 2020-06-28 |
公开(公告)号: | CN111767830A | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 胡东平;杨宗武 | 申请(专利权)人: | 广东小天才科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06N3/04;G06N20/00;G06F16/31 |
代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 郭桂峰 |
地址: | 523851 广东省东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 扫描 方法 系统 终端设备 以及 存储 介质 | ||
本发明提供了一种扫描页的框题方法、系统、终端设备以及存储介质,其方法包括:获取一张扫描页;对扫描页中的各级标题序号进行识别与定位;对扫描页中的题目的左侧和右侧进行识别与定位;依据识别与定位出的各级标题序号,定位各题目的上侧和下侧;依据所述左侧、所述右侧、所述上侧和所述下侧,进行各题目的框题。本发明实现对题目题号和分栏线的自动识别,然后基于识别结果实现对各题目的框题,自动化程度高,且速度快,成本低。
技术领域
本发明涉及图像处理技术领域,尤指一种扫描页的框题方法、系统、终端设备以及存储介质。
背景技术
当前具有搜题功能的APP作为学习的辅助工具被广大学生所喜爱,为提升搜题的准确率,增加后台题库中题目的数量是一种非常直接、有效的方式。
题目入库的主要流程:选取书本、试卷、期刊等,将其放入特殊的扫描仪,扫描获取书其中每页的电子图片,然后框选图片中的大题、小题等各级题目区域,将各级题目区域送OCR识别(光学字符识别),最后入库。在该流程中,框选各级题目一般由人工来完成,对于处理百万级图片,显然速度过慢,同时人工成本过于高昂。
发明内容
本发明的目的是提供一种数据处理方法、系统、终端设备以及存储介质,实现可以同时使用穿梭框和选项卡,不需要重复编写代码,利于前端功能模块的开发,从根本上提高前端开发的工作效率,具有重要意义。
本发明提供的技术方案如下:
本发明提供一种扫描页的框题方法,包括如下步骤:
获取一张扫描页;
对扫描页中的各级标题序号进行识别与定位;
对扫描页中的题目的左侧和右侧进行识别与定位;
依据识别与定位出的各级标题序号,定位各题目的上侧和下侧;
依据所述左侧、所述右侧、所述上侧和所述下侧,进行各题目的框题。
进一步的,所述对扫描页中的题目的左侧和右侧进行识别与定位包括:对分栏线的识别与定位,然后基于识别与定位出的分栏线对应的确定所述左侧和/或所述右侧;分栏线基于下述方式进行识别与定位:
所述扫描页在进行扫描时,图像的纵向线与被扫描页面的纵向线固定成一大于零的角度,然后连接扫描页中纵向排列的同级标题序号,形成一斜线段,然后判断所述斜线段的斜率是否小于预设值,若是,则存在分栏线,否则不存在分栏线。
进一步的,所述对扫描页中的题目的左侧和右侧进行识别与定位包括:对分栏线的识别与定位,具体为:
使用深度学习中目标检测的方式检测扫描页中的实线和虚线,如果检测到的实线和虚线的外接矩形满足高度大于预设高度且高宽比大于预设比值,则表示存在分栏线。
进一步的,完成所述进行各题目的框题的步骤后,还包括步骤:
对框题所框选的区域进行精调,包括删除框题所框选的区域内空白区域、去除页眉页脚以及去除装订线中的一种或者多种。
本发明还提供一种扫描页的框题系统,包括如下模块:
数据获取模块,用于获取一张扫描页;
题号处理模块,用于对扫描页中的各级标题序号进行识别与定位;
左右处理模块,用于对扫描页中的题目的左侧和右侧进行识别与定位;
上下处理模块,依据识别与定位出的各级标题序号,定位各题目的上侧和下侧;
框题模块,用于依据所述左侧、所述右侧、所述上侧和所述下侧,进行各题目的框题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东小天才科技有限公司,未经广东小天才科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010598280.6/2.html,转载请声明来源钻瓜专利网。