[发明专利]一种采用LSTM神经网络的中文短文本主观题自动评分方法和系统在审
申请号: | 201711177862.1 | 申请日: | 2017-11-23 |
公开(公告)号: | CN107967318A | 公开(公告)日: | 2018-04-27 |
发明(设计)人: | 余胜泉;杨熙;黄俞卫;庄福振;张立山 | 申请(专利权)人: | 北京师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京科迪生专利代理有限责任公司11251 | 代理人: | 杨学明,顾炜 |
地址: | 100875 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 采用 lstm 神经网络 中文 文本 主观题 自动 评分 方法 系统 | ||
技术领域
本发明涉及自动批阅技术领域,具体来说,是一种采用长短时记忆(LSTM,Long Short-Term Memory)神经网络的中文短文本主观题自动评分方法和系统,它可以应用于由中文自然语言回答的翻译、简答、判断、图文转化等问题的自动评分,并最终应用于作业及试卷的批阅及学生的学习评价过程。
背景技术
主观题在学科学习及教学中占据着非常重要的地位,其最大的优势是能够测量各种比较复杂的行为目标,更可以考查学生的创造性思维能力和运用表达能力。主观题也由此成为学科教学及测试中使用最为广泛的题型之一。繁重的、机械的主观题批阅工作占据了教师的大量时间和精力,而学生们则希望实时的得到关于作业情况的反馈,因此教师和学生都迫切的希望由计算机来实现客观有效、省时省力省资源的主观题自动批阅。主观题自动评分的实现具有非常重要的现实意义:首先,能够极大提高教师批阅环节的效率,有效减轻教师工作负担;其次,能够减少评阅老师的主观偏好、身体状况和心理状态等因素对评分准确性的影响;再次,可为在线学习的学生提供实时反馈,节省批阅等待时间,提高学习效率;最后,能够应用于自动的自适应学习和自适应测评任务,是实现智能教学系统的关键技术。
在日常的教学和考试中,短文本主观题主要包括翻译、简答、判断等类型,特点为:(1)以自然语言的形式回答;(2)答案的长度较短,一般不超过一段话;(3)学生无法从题干中获得答案信息,必须对领域知识进行理解应用和迁移;(4)评分时侧重于对答案文本内容的考察,而非文本的写作风格、修辞手法等特征;(5)问题的开放性多种多样,可以是封闭的、半封闭或开放的。实现计算机对短文本主观题的自动评分,需要计算机能够更深刻的“理解”文本的语义信息。另外,受到答案文本长度的限制,计算机可以从中抽取出的统计信息(如词语共现、上下文信息等)有限,传统的基于统计的自然语言处理方法和模型面临着数据稀疏和语义敏感性等问题。因此,获得准确的主观题的自动评分,仍然是一个极具挑战和亟待解决的技术问题。
主观题的自动评分作为智能教育的关键技术之一,在教育技术领域占据着非常重要的地位。总结国内外现有成果发现一般的评分方法框架主要分以下4个模块,如图1所示:
模块(1):建立数据库。数据库中包含试题、标准答案、评分标准及学生答案等相关数据。
模块(2):预处理。对答案文本进行分词、去重、去停用词、词性标注等处理。
模块(3):建立评分模型。该模块中包含两个子模块,两者相互影响,相互制约:
A.特征提取:利用自然语言处理技术,基于规则、统计或神经网络等方法进行文本特征提取,将答案文本向量化。
B.建模方法:利用概念映射、信息抽取、基于语料库的方法和机器学习等方法,建立评分模型。
模块(4):评分。对于新的学生答案文本,首先对其进行模块(2)的处理,然后放入到模块(3)建立的模型中,对新的学生答案进行标签预测,再根据预测出的标签给出该条答案的最终评分。
在上述自动评分的框架中,核心的模块为模型建立模块(即模块(3)),主流的方法可以分为以下4类:
(1)概念匹配:主要思想是将标准答案视为几个核心概念或关键词的组合,根据学生答案中是否存在这些核心概念进行评分。这种方法比较适用于有明确答案且答案较为简短的类型题目。典型的系统有ATM(Automatic Text Marker)和C-rater等。
(2)信息提取:主要思想是认为答案文本中通常会包含某些具体的观点,这些观点可以用模板进行定位和建模,学生答案和标准答案的模板匹配度为打分依据。首先,从非结构化的数据中提取由元组表示的结构化信息;然后利用如正则表达式或解析树等模式匹配算法进行模式匹配。典型的系统有AutoMark、WebLSA(Web-based Language Assessment System)和Auto-marking等。
(3)基于语料的方法:该方法是在大型的文本语料库中抽取语料库的统计特征,利用这些统计特征计算学生答案与标准答案的文本相似度,根据相似度的高低对学生答案打分。常用的方法为潜在语义分析(LSA,Latent Semantic Analysis)。基于语料的方法的评分性能与语料库的规模成正比。典型的系统有Atenea和SAMText(Short Answer Measurement of Text)等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学,未经北京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711177862.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:分屏查阅展示控制方法及其控制系统
- 下一篇:一种海量数据高效抽取平台