[发明专利]数据录入方法、装置、存储介质及电子设备在审
申请号: | 202210102552.8 | 申请日: | 2022-01-27 |
公开(公告)号: | CN114529557A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 郝双;王彦君;杨明坤;张飞飞;马志国;杜竹君 | 申请(专利权)人: | 北京开拓鸿业高科技有限公司 |
主分类号: | G06T7/11 | 分类号: | G06T7/11;G06V30/148;G06T5/30;G06K9/62;G06V10/764 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 录入 方法 装置 存储 介质 电子设备 | ||
本公开涉及一种数据录入方法、装置、存储介质及电子设备。数据录入方法包括:获取初始图像,对初始图像进行预处理,得到修正图像;对所述修正图像进行分栏,得到多栏修正图像;对每栏修正图像进行目标类型检测,得到每栏修正图像包括的目标类型;对所述目标类型的图像区域进行版面定位和分割,得到所述目标类型的目标图像区域;对所述目标区域进行文本识别,并基于后处理规则和文本识别结果,得到每栏修正图像的结构化数据。通过本公开,可提高数据录入效率。
技术领域
本公开涉及数据处理领域,具体地,涉及一种数据处理录入方法、装置、存储介质及电子设备。
背景技术
试卷电子化是构建大型题库系统必不可少的一部分,只有完成了试卷电子化才可以实现后续的自动化组卷,拍照搜题,学情分析,知识点提取等相关工作。
在试卷电子化录入任务中,需要层次化的、有逻辑的解析出试题文本内容,并拆解出相应的要素,比如题号,题型,题干信息,作答信息,选项信息,图片表格等,并根据上述信息生成可解析的层次化结构化的数据。
在进行试卷版面分析的任务中,往往需要有一定逻辑顺序的给出试卷的解析结果,这里的逻辑顺序既包括视觉上从上到下从左到右的位置关系顺序,也包括试题从大层级到小层级的层次化顺序,总而言之就是符合人类阅读理解习惯的一种表达。
试卷文本通常采用图文混排的方式进行,既有单栏版面也有多栏版面,在进行逻辑化解析需要知道试卷中哪里是文本区域,哪里是图片区域,同时还需要根据版面分栏情况进行切分,只有精准的完成了这些工作后,才有可能实现符合层次逻辑,满足阅读顺序的真正意义上的试卷解析录入工作。
发明内容
本公开的目的是提供一种数据处理录入方法、装置、存储介质及电子设备。
为了实现上述目的,本公开提供一种数据录入方法,包括:
获取初始图像,对初始图像进行预处理,得到修正图像;
对所述修正图像进行分栏,得到多栏修正图像;
对每栏修正图像进行目标类型检测,得到每栏修正图像包括的目标类型;
对所述目标类型的图像区域进行版面定位和分割,得到所述目标类型的目标图像区域;
对所述目标区域进行文本识别,并基于后处理规则和文本识别结果,得到每栏修正图像的结构化数据。
可选地,所述对初始图像进行预处理,得到修正图像,包括:
确定所述初始图像的角点;
根据所述角点,对所述初始图像进行透视变换,得到矫正图像;
对所述矫正图像进行二值化处理,得到所述修正图像。
可选地,所述目标检测至少包括下述检测中的一种:
图表检测、文本行检测和公式检测。
可选地,所述对所述目标类型的图像区域进行版面处理,得到所述目标类型的目标图像区域,包括:
对所述目标类型的图像区域进行擦除,得到预设色彩的图像区域;
对所述预设色彩的图像区域进行腐蚀操作,之后对腐蚀操作后的图像进行分割,得到分割后的图像区块;
对所述分割后的图像区块按照所述目标类型进行合并,得到合并图像区块;
确定合并图像区块的图像区域,以及与合并区块对应的目标类型。
本公开还提供一种数据录入装置,包括:
修正模块,用于获取初始图像,对初始图像进行预处理,得到修正图像;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京开拓鸿业高科技有限公司,未经北京开拓鸿业高科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210102552.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置