[发明专利]一种试卷拆分方法及其系统有效
申请号: | 201910885041.6 | 申请日: | 2019-09-19 |
公开(公告)号: | CN110674722B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 张新华;王朝选;魏鹏;刘严 | 申请(专利权)人: | 浙江蓝鸽科技有限公司 |
主分类号: | G06V30/414 | 分类号: | G06V30/414;G06V30/416;G06V30/418;G06V30/19 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 314000 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 试卷 拆分 方法 及其 系统 | ||
本发明涉及教育领域,公开了一种试卷拆分方法及其系统,该方法包括:根据样本试卷的试卷结构、试题导语、试题序号构建试卷信息特征库;根据试卷结构特征,将待拆分试卷划成若干段落;根据试题导语特征和试题序号特征,标识出导语段落和序号段落,并结合上下段落关系,将待拆分试卷划分为若干独立试题。本发明提出的方法实现了计算机全自动将试卷中试题一一进行拆分,并且准确性高、速度快,满足各学科、任意题型独立试题划分,通用性强。
技术领域
本发明属于教育领域,尤其涉及一种试卷拆分方法及其系统。
背景技术
随着人工智能技术的发展,教育智能化产品逐渐走入人们的生活,其智能化和便捷性为广大师生带来了更高的工作和学习效率。在各类教学产品中,如智能化组卷、学生个性化学习等都需要海量题库作为支撑,因此对海量试卷中的试题进行提取是题库构建的最基础的一部分。
然而,目前对试卷中的试题进行拆分与提取,大部分是由人工操作,这将会耗费大量人力和物力。而已有的一些试题提取技术存在试题提取准确率低、通用性低等问题。
发明内容
本发明的目的在于针对现有技术的不足,提供一种新的试卷拆分方法及其系统,能够快速、准确地对批量试卷中的试题自动进行拆分,便于题库资源的自我建设。
本发明的目的是通过以下技术方案来实现的:本发明在预先构建的试卷信息特征库的基础上,通过特征匹配的方式识别试卷中的各试题导语以及试题序号,并根据试题导语与序号之间的关系,最终将试卷准确地划分为若干个独立的试题。具体地:
本发明公开了一种试卷拆分方法,该方法包括:
根据样本试卷的试卷结构、试题导语、试题序号构建试卷信息特征库;
根据试卷结构特征,将待拆分试卷划成若干段落;
根据试题导语特征和试题序号特征,标识出导语段落和序号段落,并结合上下段落关系,将待拆分试卷划分为若干独立试题。
进一步地,将待拆分试卷划成若干段落后,剔除试卷首语段落和试卷答案段落,剩余段落再进行导语段落和序号段落的识别。
进一步地,序号段落的识别过程中,判断不规范序号,基于已识别的规范序号形式,将不规范序号修正为规范序号。
进一步地,序号段落的识别过程中,判断干扰性序号,剔除干扰性序号对应的序号段落标识。
进一步地,导语段落的识别过程中,根据导语关键词,提取包含相同导语关键词的标准导语;
计算该试题导语与其对应的各标准导语的关键词相似度,筛选出关键词相似度大于阈值T的标准导语;
计算该试题导语与筛选出的各标准导语的内容相似度,取内容相似度最大的标准导语作为试题导语;
若没有筛选出符合要求的标准导语,则取消导语段落标识。
进一步地,导语段落的识别过程中,判断干扰性导语,剔除干扰性导语对应的导语段落标识。
进一步地,将两个相邻试题导语段落之间的内容划分为一个独立试题块;
基于各独立试题块中的试题导语、试题序号的关系,将独立试题块划分为若干独立试题。
进一步地,试卷信息特征库中的试题序号特征包含试题有效序号、试题不规则序号;
试题导语特征包括导语样式、导语关键词、标准导语;
试卷结构特征包含试卷首语关键词、答案解析关键词。
本发明还公开了一种试卷拆分系统,包括:
存储器,用于存储计算机可执行指令;以及,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江蓝鸽科技有限公司,未经浙江蓝鸽科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910885041.6/2.html,转载请声明来源钻瓜专利网。