[发明专利]一种试题分割方法、系统及可读存储介质在审
申请号: | 202010804156.0 | 申请日: | 2020-08-12 |
公开(公告)号: | CN111680669A | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 张阳 | 申请(专利权)人: | 江西风向标教育科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/34;G06K9/62;G06N3/04 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 彭琰 |
地址: | 330000 江西*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 试题 分割 方法 系统 可读 存储 介质 | ||
1.一种试题分割方法,其特征在于,包括以下步骤:
识别试卷中的文字,作为初始训练数据集;
对所述初始训练数据集针对每个题型进行标签标注,对所述初始训练集根据所述标签标注的结果和字符粒度随机生成初始向量;
对所述初始向量进行编码,提取特征,得到特征向量;
将所述特征向量输入序列标注模型,利用所述序列标注模型对整个所述试卷进行序列标注,根据所述序列标注的结果对所述试卷进行分割。
2.根据权利要求1所述的试题分割方法,其特征在于,所述识别试卷中的文字的步骤之前包括:
对所述试卷的图片进行分割,得到所述试卷的每行的文本内容对应的图片。
3.根据权利要求1所述的试题分割方法,其特征在于,所述识别试卷中的文字为采用CRNN和CTCLoss对所述试卷的图片进行内容识别,转化为文本信息。
4.根据权利要求1所述的试题分割方法,其特征在于,所述标签标注的结果包括开始信息、结束信息、中间信息和单行信息,分别对应所述试题的题干开始部分、题干结束部分、题干中间部分和题干是否为单行的判断值。
5.根据权利要求1所述的试题分割方法,其特征在于,所述对所述初始训练集根据所述标签标注的结果和字符粒度随机生成初始向量之前还包括:
基于字符粒度随机选取所述初始训练集的文本信息,执行隐藏。
6.根据权利要求1所述的试题分割方法,其特征在于,所述对所述初始向量进行编码,提取特征,得到特征向量的步骤包括:
分别采用CNN模型和BiLSTM模型对所述初始向量进行编码,得到2个所述初始向量;
提取2个所述初始向量的的特征,整合所有的所述特征,得到特征向量。
7.根据权利要求1所述的试题分割方法,其特征在于,所述将所述特征向量输入序列标注模型之前还包括:
针对所述特征向量的每行文本信息,通过双向LSTM模型获得所述每行文本信息的之前和之后的特征,以此作为序列标注模型的输入信息。
8.根据权利要求1所述的试题分割方法,其特征在于,所述序列标注模型为CRF模型,采用最大对数似然函数损失函数和viterbi编码对所述试卷进行所述序列标注。
9.一种试题分割系统,其特征在于,包括:
训练集建立模块,用于识别试卷中的文字,作为初始训练数据集;
初始向量获取模块,用于对所述初始训练数据集针对每个题型进行标签标注,对所述初始训练集根据所述标签标注的结果和字符粒度随机生成初始向量;
特征向量获取模块,用于对所述初始向量进行编码,提取特征,得到特征向量;
分割模块,用于将所述特征向量输入序列标注模型,利用所述序列标注模型对整个所述试卷进行序列标注,根据所述序列标注的结果对所述试卷进行分割。
10.一种可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至8任意一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江西风向标教育科技有限公司,未经江西风向标教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010804156.0/1.html,转载请声明来源钻瓜专利网。