[发明专利]一种基于跨度信息和局部注意力的试卷结构解析方法在审
申请号: | 202210063063.6 | 申请日: | 2022-01-19 |
公开(公告)号: | CN114429118A | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 郑彦魁;马震远;马千里;尚曦辰 | 申请(专利权)人: | 广州启辰电子科技有限公司;华南理工大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/211;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 北京前审知识产权代理有限公司 11760 | 代理人: | 张静;李亮谊 |
地址: | 510700 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 跨度 信息 局部 注意力 试卷 结构 解析 方法 | ||
本发明公开了一种基于跨度信息和局部注意力的试卷结构解析方法,包括以下步骤:获取电子化试卷,预处理电子化试卷中的多元数据为统一的分行结构性文本;首先通过大规模预训练模型提取试卷每一行的语义特征,并利用建模行上下文的信息;之后利用基于跨度信息的监督注意力以及一个基于跨度分类的辅助任务去显式的建模试卷的分割结构信息以及基于跨度的特征信息,通过分类器将试卷拆分成不同种类的大题分段及其对应的类型;进一步的分别处理得到的每个大题分段,利用分类器以及之前提取到的各种特征信息拆分成一个个小题,返回最终的解析结果。本发明采用了先解析大题后拆分小题的两阶段方法,有效的兼顾了试卷解析的效率以及降低了模型的训练难度提升试题解析的准确率。
技术领域
本发明涉及试题匹配技术领域,具体涉及一种基于跨度信息和局部注意力的试卷结构解析方法。
背景技术
随着教育产业的蓬勃发展,越来越多的试卷试题在市面上出现,其中电子化试题占了非常大的比率,如何收集试题并且有结构的将其存储到相应的数据库中对于教育行业有着重要的意义。早先由于试卷少易收集,对于试卷的解析可以由人工完成,但人工完成过于耗费人力物力,时间效率低下,难以应对如今的局面。
随着人工智能技术的发展,本发明旨在利用少量人工标注的数据训练深度学习模型,来拆分出试卷中的所有题型,并且解析出每一个小题所包含的内容,便于后续的数据库存储以及未来的试卷分析与挖掘等应用。此前的方法完全基于一种分类范式,通过对试卷的每一个基本单元进行分类,然后根据分类结果进行归并来得到最终的试卷解析结果。但是,此类方法过于强调分类而忽视了基于跨度分割的作用,导致试卷解析结果中常出现部分分段错误,即划分出来的试卷段落可能因为仅仅缺少一行或多出一行导致整个分段错误。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于跨度信息和局部注意力的试卷结构解析方法,该方法首先利用预训练模型得到电子化试卷的行语义表示,在通过双向长短期记忆网络得到包含上下文信息的行表示。然后通过基于跨度信息的监督注意力以及一个基于跨度分类的辅助任务去显式的建模试卷的分割结构信息以及基于跨度的特征信息,通过分类器将试卷拆分成不同种类的大题分段及其对应的类型;进一步的分别处理得到的每个大题分段,利用分类器以及之前提取到的各种特征信息拆分成一个个小题,返回最终的解析结果。本发明采用了先解析大题后拆分小题的两阶段方法,有效的兼顾了试卷解析的效率以及降低了模型的训练难度提升试题解析的准确率。
本发明的目的可以通过采取如下技术方案达到:
一种基于跨度信息和局部注意力的试卷结构解析方法,该试题匹配方法包括以下步骤:
S1、获取电子化试卷,预处理电子化试卷中的多元数据为统一的分行结构性文本;
S2、首先通过大规模预训练模型提取试卷每一行的语义特征,并利用双向长短期记忆网络建模行上下文的信息;
S3、利用基于跨度信息的监督注意力以及设计了一个基于跨度分类的辅助任务去显式的建模试卷的分割结构信息以及基于跨度的特征信息,通过分类器将试卷拆分成不同种类的大题分段及其类型;
S4、分别处理得到的每个大题分段,利用分类器以及之前提取到的各种特征信息拆分成一个个小题,返回最终的解析结果;
2、根据权利要求1所述的一种基于跨度信息和局部注意力的试卷结构解析方法,其特征在于,所述步骤S1中预处理电子化试卷为分行结构文本的具体计算过程如下:
S2.1、对于试题中的文本信息,首先利用预训练模型BERT的分词器对文本进行分词,并且过滤掉其中的停用词。
S2.2、对于试题中非文本的多元数据,如公式、图片、表格等,根据这些数据的特性设计了一种非文本数据的处理方法,具体流程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州启辰电子科技有限公司;华南理工大学,未经广州启辰电子科技有限公司;华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210063063.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置