[发明专利]一种基于跨度信息和局部注意力的试卷结构解析方法在审

专利信息
申请号: 202210063063.6 申请日: 2022-01-19
公开(公告)号: CN114429118A 公开(公告)日: 2022-05-03
发明(设计)人: 郑彦魁;马震远;马千里;尚曦辰 申请(专利权)人: 广州启辰电子科技有限公司;华南理工大学
主分类号: G06F40/205 分类号: G06F40/205;G06F40/211;G06F40/289;G06N3/04;G06N3/08
代理公司: 北京前审知识产权代理有限公司 11760 代理人: 张静;李亮谊
地址: 510700 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 跨度 信息 局部 注意力 试卷 结构 解析 方法
【说明书】:

发明公开了一种基于跨度信息和局部注意力的试卷结构解析方法,包括以下步骤:获取电子化试卷,预处理电子化试卷中的多元数据为统一的分行结构性文本;首先通过大规模预训练模型提取试卷每一行的语义特征,并利用建模行上下文的信息;之后利用基于跨度信息的监督注意力以及一个基于跨度分类的辅助任务去显式的建模试卷的分割结构信息以及基于跨度的特征信息,通过分类器将试卷拆分成不同种类的大题分段及其对应的类型;进一步的分别处理得到的每个大题分段,利用分类器以及之前提取到的各种特征信息拆分成一个个小题,返回最终的解析结果。本发明采用了先解析大题后拆分小题的两阶段方法,有效的兼顾了试卷解析的效率以及降低了模型的训练难度提升试题解析的准确率。

技术领域

本发明涉及试题匹配技术领域,具体涉及一种基于跨度信息和局部注意力的试卷结构解析方法。

背景技术

随着教育产业的蓬勃发展,越来越多的试卷试题在市面上出现,其中电子化试题占了非常大的比率,如何收集试题并且有结构的将其存储到相应的数据库中对于教育行业有着重要的意义。早先由于试卷少易收集,对于试卷的解析可以由人工完成,但人工完成过于耗费人力物力,时间效率低下,难以应对如今的局面。

随着人工智能技术的发展,本发明旨在利用少量人工标注的数据训练深度学习模型,来拆分出试卷中的所有题型,并且解析出每一个小题所包含的内容,便于后续的数据库存储以及未来的试卷分析与挖掘等应用。此前的方法完全基于一种分类范式,通过对试卷的每一个基本单元进行分类,然后根据分类结果进行归并来得到最终的试卷解析结果。但是,此类方法过于强调分类而忽视了基于跨度分割的作用,导致试卷解析结果中常出现部分分段错误,即划分出来的试卷段落可能因为仅仅缺少一行或多出一行导致整个分段错误。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于跨度信息和局部注意力的试卷结构解析方法,该方法首先利用预训练模型得到电子化试卷的行语义表示,在通过双向长短期记忆网络得到包含上下文信息的行表示。然后通过基于跨度信息的监督注意力以及一个基于跨度分类的辅助任务去显式的建模试卷的分割结构信息以及基于跨度的特征信息,通过分类器将试卷拆分成不同种类的大题分段及其对应的类型;进一步的分别处理得到的每个大题分段,利用分类器以及之前提取到的各种特征信息拆分成一个个小题,返回最终的解析结果。本发明采用了先解析大题后拆分小题的两阶段方法,有效的兼顾了试卷解析的效率以及降低了模型的训练难度提升试题解析的准确率。

本发明的目的可以通过采取如下技术方案达到:

一种基于跨度信息和局部注意力的试卷结构解析方法,该试题匹配方法包括以下步骤:

S1、获取电子化试卷,预处理电子化试卷中的多元数据为统一的分行结构性文本;

S2、首先通过大规模预训练模型提取试卷每一行的语义特征,并利用双向长短期记忆网络建模行上下文的信息;

S3、利用基于跨度信息的监督注意力以及设计了一个基于跨度分类的辅助任务去显式的建模试卷的分割结构信息以及基于跨度的特征信息,通过分类器将试卷拆分成不同种类的大题分段及其类型;

S4、分别处理得到的每个大题分段,利用分类器以及之前提取到的各种特征信息拆分成一个个小题,返回最终的解析结果;

2、根据权利要求1所述的一种基于跨度信息和局部注意力的试卷结构解析方法,其特征在于,所述步骤S1中预处理电子化试卷为分行结构文本的具体计算过程如下:

S2.1、对于试题中的文本信息,首先利用预训练模型BERT的分词器对文本进行分词,并且过滤掉其中的停用词。

S2.2、对于试题中非文本的多元数据,如公式、图片、表格等,根据这些数据的特性设计了一种非文本数据的处理方法,具体流程如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州启辰电子科技有限公司;华南理工大学,未经广州启辰电子科技有限公司;华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210063063.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top