[发明专利]一种基于答案库的手写样本集的自动生成方法有效
申请号: | 201910678950.2 | 申请日: | 2019-07-25 |
公开(公告)号: | CN110378310B | 公开(公告)日: | 2023-10-10 |
发明(设计)人: | 田博帆 | 申请(专利权)人: | 南京红松信息技术有限公司 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V40/30;G06V30/14;G06F16/33 |
代理公司: | 南京北辰联和知识产权代理有限公司 32350 | 代理人: | 陆中丹 |
地址: | 210022 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 答案 手写 样本 自动 生成 方法 | ||
本发明公开了一种基于答案库的手写样本集的自动生成方法,具体包括以下步骤:(1)手印分离:将含有手写体文本的作业或试卷的图片中的印刷体和手写体字符进行分离;(2)字符定位:对所述字符图片中的字符进行定位,得到定位坐标;(3)答案获取:确定手写体的答案坐标;(4)答案对齐:对题目的答案做实际排序和对齐操作,完成检测答案和答案库数据的对应关系;(5)答案分类:根据答案库的数据信息判断出字符类别并裁剪出对应的手写体答案,将裁剪的答案图片作为基础样本保存至文件夹中;(6)样本合成:根据步骤(5)得到的基础样本的数据集通过随机读取文件夹名和文件夹中的文件,自动合成出训练样本集。
技术领域
本发明属于深度学习样本制作技术领域,尤其是使用多种图像处理技术自动生成手写体样本数据集的方法。
背景技术
随着人工智能的发展,计算机逐渐取代了繁重的人力劳作,并开始拥有了智慧。例如,在文本识别领域,诞生了学生试卷自动化批阅系统、票据智能识别录入系统等;在目标检测领域,诞生了人脸识别系统、目标追踪系统等;在语音识别领域,诞生了人机对话系统,语音智能控制系统等;而在这些不同的应用领域中,计算机拥有智慧的高低取决于学习资源的优劣程度,它通过不间断地学习使其获得更高的智慧。尤其,在文本识别领域,有关手写体的识别,需要大量的样本数据作为学习的重要资源,一直以来人们对于手写体样本获取和数据标注做出了大量工作,成为该领域人工智能研究的首要问题。
因此,有必要开发一种基于答案库的手写样本集的自动生成方法,当提供答案库的情况下,无需手动分类基础样本,就能够根据基础样本自动生成大量的训练样本集。
发明内容
本发明要解决的技术问题是,提供一种基于答案库的手写样本集的自动生成方法,当提供答案库的情况下,无需手动分类基础样本,就能够根据基础样本自动生成大量的训练样本集。
为解决上述技术问题,本发明采用的技术方案是:该基于答案库的手写样本集的自动生成方法,具体包括以下步骤:
(1)手印分离:将含有手写体文本的作业或试卷的图片中的印刷体和手写体字符进行分离;
(2)字符定位:对已分离出的手写体的字符图片,对所述字符图片中的字符进行定位;
(3)答案获取:首先确定各题目的答案区,再确定手写体的答案坐标;
(4)答案对齐:结合不同题型的数目和存储在答案数据库中的答案个数信息,对题目的答案做实际排序和对齐操作,完成检测答案和答案库数据的对应关系;
(5)答案分类:根据答案库的数据信息,直接判断出字符类别,并裁剪出对应的手写体答案,将裁剪的答案图片作为基础样本保存至对应的文件夹中;
(6)样本合成:根据步骤(5)得到的基础样本的数据集,通过随机读取文件夹名和文件夹中的文件,将获取到的答案图片统一等比缩放至高度为32个像素的大小,再按照矩阵行拼接的方式对数字化的图片进行自动合成,最终得出训练样本集。采用上述技术方案,由于图像中同时包含有印刷体和手写体字符,为了保证完整地提取出手写体字符答案,并依据答案库信息来正确分类和保存手写体答案的字符图片作为基础的样本,用于自动合成最终的样本数据集;首先对含有手写体文本的作业或试卷的文本图片进行处理分析,采用基于模板匹配的手写印刷分离,实现两张图片中手写字符的完整提取;再利用答案区的坐标信息,以及分离出的手写字符的定位结果,提取出完整的手写体答案;接着将手写答案和答案库信息做对齐比较,分类出答案并保存至对应的文件夹中;最后根据对应的基础样本信息自动合成出训练样本集数据并对其标签化,以达到符合训练要求的目的。步骤(1)中由于学生试卷图片中同时包含有印刷体和手写体字符,为了能够完整的得到手写体答案,需通过模板匹配的方式完成手写体和印刷体字符的完全分离;步骤(4)中考虑实际答卷存在答案区未作答的现象,需结合不同题型中小题的数目和存储在答案数据库中的答案个数信息,对答案做实际排序和对齐操作,完成检测答案和答案库数据的对应关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京红松信息技术有限公司,未经南京红松信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910678950.2/2.html,转载请声明来源钻瓜专利网。