[发明专利]一种试题分割方法、系统及可读存储介质在审
申请号: | 202010804156.0 | 申请日: | 2020-08-12 |
公开(公告)号: | CN111680669A | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 张阳 | 申请(专利权)人: | 江西风向标教育科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/34;G06K9/62;G06N3/04 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 彭琰 |
地址: | 330000 江西*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 试题 分割 方法 系统 可读 存储 介质 | ||
本发明公开了一种试题分割方法,包括以下步骤:识别试卷中的文字,作为初始训练数据集;对所述初始训练数据集针对每个题型进行标签标注,对所述初始训练集随机生成初始向量;对所述初始向量进行编码,提取特征,得到特征向量;将所述特征向量输入序列标注模型,利用所述序列标注模型对整个所述试卷进行序列标注,根据所述序列标注的结果对所述试卷进行分割。本发明先针对每一种题型获得一个初始训练数据集,获得序列标注模型,序列标注模型还可用于对后续的试卷进行自动标注,再基于标注进行试题分割,大大降低了运算量及复杂程度。本发明还公开了一种采用上述方法的系统及可读存储介质。
技术领域
本发明涉及汽车图像处理技术领域,特别是涉及一种试题分割方法、系统及可读存储介质。
背景技术
随着科技的进步,人们生活的智能化程度越来越高,智能设备已经覆盖至教学领域。
在智能化教学中,需分别对每道试题进行分析,一般多采用对试卷进行分割,将试卷的图片分割为多个试题的图片,并分别对每个试题进行文字识别,以存入数据库中。目前,试题的分割多采用卷积运算方法,智能识别字符,实现对试卷的分割。
现有的试题分割方法需采用大量复杂的运算,对处理器的要求较高,且由于运算复杂,出错的概率也越大。
发明内容
本发明的一个目的在于提出一种采用少量运算的试题分割方法。
一种试题分割方法,包括以下步骤:
识别试卷中的文字,作为初始训练数据集;
对所述初始训练数据集针对每个题型进行标签标注,对所述初始训练集根据所述标签标注的结果和字符粒度随机生成初始向量;
对所述初始向量进行编码,提取特征,得到特征向量;
将所述特征向量输入序列标注模型,利用所述序列标注模型对整个所述试卷进行序列标注,根据所述序列标注的结果对所述试卷进行分割。
本发明的有益效果是:先针对每一种题型获得一个初始训练数据集,利用初始训练数据集获得特征向量,再根据特征向量获得序列标注模型,序列标注模型还可用于对后续的试卷进行自动标注,再基于标注进行试题分割,大大降低了运算量及复杂程度。
另外,根据本发明提供的试题分割方法,还可以具有如下附加的技术特征:
进一步地,所述识别试卷中的文字的步骤之前包括:
对所述试卷的图片进行分割,得到所述试卷的每行的文本内容对应的图片。
进一步地,所述识别试卷中的文字为采用CRNN和CTCLoss对所述试卷的图片进行内容识别,转化为文本信息。
进一步地,所述标签标注的结果包括开始信息、结束信息、中间信息和单行信息,分别对应所述试题的题干开始部分、题干结束部分、题干中间部分和题干是否为单行的判断值。
进一步地,所述对所述初始训练集根据所述标签标注的结果和字符粒度随机生成初始向量之前还包括:
基于字符粒度随机选取所述初始训练集的文本信息,执行隐藏。
进一步地,所述对所述初始向量进行编码,提取特征,得到特征向量的步骤包括:
分别采用CNN模型和BiLSTM模型对所述初始向量进行编码,得到2个所述初始向量;
提取2个所述初始向量的的特征,整合所有的所述特征,得到特征向量。
进一步地,所述将所述特征向量输入序列标注模型之前还包括:
针对所述特征向量的每行文本信息,通过双向LSTM模型获得所述每行文本信息的之前和之后的特征,以此作为序列标注模型的输入信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江西风向标教育科技有限公司,未经江西风向标教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010804156.0/2.html,转载请声明来源钻瓜专利网。