[发明专利]一种试卷样本生成方法、装置、电子设备和存储介质有效
申请号: | 201811481423.4 | 申请日: | 2018-12-05 |
公开(公告)号: | CN109634961B | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 何涛;毛礼辉;罗欢;陈明权 | 申请(专利权)人: | 杭州大拿科技股份有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F40/166;G06K9/00 |
代理公司: | 上海思捷知识产权代理有限公司 31295 | 代理人: | 王宏婧 |
地址: | 310053 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 试卷 样本 生成 方法 装置 电子设备 存储 介质 | ||
本发明提供了一种试卷样本生成方法、装置、电子设备和存储介质,包括:基于第一试卷的影像和预先训练的题目区域识别模型,识别所述第一试卷上的各个题目的区域,标注出各个题目的区域中的各个组成部分,所述组成部分包括题干、答案和/或图片,通过预先训练的字符识别模型识别各个题目的题干和答案对应的字符;将识别出的各个题目存储至题目样本库,将识别出的答案对应的字符存储至手写字体样本库;从所述题目样本库中选择至少一个目标题目组成第二试卷,并根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,从而生成新的试卷样本。本发明可以解决现有技术中获取试卷样本不便的问题。
技术领域
本发明涉及机器学习技术领域,尤其涉及一种试卷样本生成方法、装置、电子设备和计算机可读存储介质。
背景技术
目前,在训练针对试卷识别、批改的神经网络模型时,需要用到大量且真实的试卷样本。但是在获取大量真实的试卷样本的过程中存在诸多不便,例如,可以从学生、学校或者培训机构获取作答完毕的真实试卷样本,但获取难度较大,或者利用人员手工填写空白试卷的方式获取作答完毕的真实试卷样本,又会占用大量的时间和精力,成本较高。
发明内容
本发明的目的在于提供一种试卷样本生成方法、装置、电子设备和计算机可读存储介质,以解决现有技术中获取训练样本不便的问题。
为解决上述技术问题,本发明提供了一种试卷样本生成方法,包括:
S101,基于第一试卷的影像和预先训练的题目区域识别模型,识别所述第一试卷上的各个题目的区域,标注出各个题目的区域中的各个组成部分,所述组成部分包括题干、答案和/或图片,通过预先训练的字符识别模型识别各个题目的题干和答案对应的字符;
S102,将识别出的各个题目存储至题目样本库,将识别出的答案对应的字符存储至手写字体样本库;
S103,从所述题目样本库中选择至少一个目标题目组成第二试卷,并根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,从而生成新的试卷样本。
可选的,所述方法还包括:
提取所述第一试卷的背景特征,获得背景特征图片,并将所述背景特征图片存储至试卷背景样本库;
所述步骤S103从所述题目样本库中选择题目组成第二试卷,包括:
从所述试卷背景样本库中选择目标背景特征图片,将所述目标背景特征图片作为所述第二试卷的背景,并从所述题目样本库中选择至少一个目标题目组成所述第二试卷。
可选的,步骤S102将识别出的答案对应的字符存储至手写字体样本库,包括:
将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库。
可选的,所述将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库,包括:
以分组的形式,将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库中对应的分组。
可选的,步骤S103根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,包括:
根据所述目标题目的标准答案,从所述手写字体样本库的不同分组中选择字符组合成答案并填充到所述第二试卷中相应题目的答题位置。
可选的,步骤S103根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,包括:
根据预先设定的整张试卷中错误答案的比例,将所述目标题目分为填充正确答案的第一类题目和填充错误答案的第二类题目;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州大拿科技股份有限公司,未经杭州大拿科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811481423.4/2.html,转载请声明来源钻瓜专利网。