[发明专利]一种用于数学试卷图像识别的样本自动生成方法在审
申请号: | 202010708248.9 | 申请日: | 2020-07-22 |
公开(公告)号: | CN111627088A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 汤敏;李哲;陈家海;叶家鸣;吴波 | 申请(专利权)人: | 安徽七天教育科技有限公司 |
主分类号: | G06T11/60 | 分类号: | G06T11/60;G06F40/166 |
代理公司: | 北京力量专利代理事务所(特殊普通合伙) 11504 | 代理人: | 姚远方 |
地址: | 230012 安徽省合肥市新站区铜*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 数学试卷 图像 识别 样本 自动 生成 方法 | ||
本发明涉及自然语言处理和图像处理领域,具体公开了一种用于数学试卷图像识别的样本自动生成方法,针对用深度学习技术进行OCR数学试题识别所需训练数据量大、数据难以获取,人工标注方法成本昂贵,任务具体精细、不易泛化迁移、可实操性差、周期漫长等困难,提出了一种以word试卷(或类似可解析类型文档)作为输入语料,通过3种方法并行处理解析文档针对性地截取不同样式的文本样本,然后以复合方式和简单方式分流画图,自动生成包含汉字、英文、数字和公式等多种样式混合的数学试题图片样本。
技术领域
本发明属于自然语言处理和图像处理领域,具体是一种用于数学试卷图像识别的样本自动生成方法。
背景技术
OCR识别技术借助深度学习的强大力量实现了跨越式的发展,在生产生活诸多领域都落地开花,例如牌号的识别、身份证的识别、发票的识别、保险单据的识别、医疗诊单的识别等,不胜枚举。在教育领域应用潜力亦非常巨大,例如在线辅导、拍照搜题、智能阅卷、智能组卷都离不开OCR技术的支撑,而这其中非常关键的问题是如何让理论、模型和研究成果落地,投入实际生产生活环境中,从而让更多的人享受技术进步带来的便捷和好处,同时通过真实场景的数据反馈不断迭代和升级已有的模型和技术。
基于深度学习的OCR识别技术要实现产业化落地首先需要解决的问题是如何让模型具有良好的泛化性能,也就是说在不同的噪声、阴影、光照、污损等背景条件下仍能够保持足够高的识别准确率。答案是显然的,让训练样本数据集足够大、足够全,能够全方位无死角覆盖所有的目标场景。但是考虑现实情况却不具有实操性。目前深度学习主流方法仍然是有监督的学习方法,而监督学习必须先有标准答案即数据的标签。因此随着人工智能的兴起,给数据打标签已经成为了继快递、外卖之后一个新兴的产业,为国民经济发展创造了很多就业岗位。然而OCR所需要的标签数据集由于数据量庞大、种类过于繁多,若通过人工标注的方式来获取则耗资巨大、周期漫、得不偿失。
根据目前人工智能在图像处理领域的发展和应用,人工标注图像数据主要有以下常的几种方式:1)根据图像内容进行分类,例如人、猫、狗等,其操作类似做选择题,只需点击确认;2)对图像中某一类别或多个类别的物体对其位置进行标定;常用的操作方式是外轮廓上多点连线画多边形的方式;3)对图像中某一类别的物体进行关键点标注,例如人体骨骼关键点、人脸关键点,通常关键点的数量是确定的,十几个到几十个不等,通过点击加选择确定的方式操作。而OCR识别则比较麻烦一些,例如汉字的常用字符多达数千个,不太可能让标注工人通过选择点击的方式操作实现,可行的办法是打字录入图像中的文本,这对人力的要求就提高了,成本也相应增加了。
另一方面,数学试题不同于普通的文本识别,如前文提到的身份证、牌、保险单、医疗诊单等主要是字符的识别,数学试题中往往还包含有特定的结构关系型文本,例如上下标、分式、根式,这些文本的输入和标记都需要特别的处理,即使是专业的打字员可能也难以胜任。
总之,在现有技术条件下,人工合成样本的方法几乎是解决数学试题OCR识别训练所需大量样本的唯一可行方法。
目前市场上有很多OCR识别引擎,由于底层技术和数据样本的限制,大多数是只包含字符的识别,而不包含结构类型文本的识别,比如身份证,发票等识别引擎;也有另外一种类型的识别引擎,是纯公式类型的识别,这一类型的识别引擎能较好地处理结构信息,但是通常字符集都很小,只包含常的数学公式符号,这对中文的使用者不是非常友好。要开发能同时识别中文、英文、数字、特定的结构信息的识别引擎,前提是有足够多这种混合样式的数据样本,因此本专利解决的问题是如何借助文档语料信息合成中文、英文、数字、公式等多种样式混合的数学试题图片样本,使其能更好地拟合打印输出的数学试题试卷的效果,从而实现研究模型产品落地的目的。
发明内容
(一)解决的技术问题
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽七天教育科技有限公司,未经安徽七天教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010708248.9/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序