[发明专利]一种采用LSTM神经网络的中文短文本主观题自动评分方法和系统在审
申请号: | 201711177862.1 | 申请日: | 2017-11-23 |
公开(公告)号: | CN107967318A | 公开(公告)日: | 2018-04-27 |
发明(设计)人: | 余胜泉;杨熙;黄俞卫;庄福振;张立山 | 申请(专利权)人: | 北京师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京科迪生专利代理有限责任公司11251 | 代理人: | 杨学明,顾炜 |
地址: | 100875 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 采用 lstm 神经网络 中文 文本 主观题 自动 评分 方法 系统 | ||
1.一种采用LSTM神经网络的中文短文本主观题自动评分方法,其特征在于,包括以下步骤:
步骤1:对主观题的答案文本进行分词操作,将答案文本转化为一个词序列;
步骤2:获取答案文本中每个词的向量化表示,并构建答案文本映射矩阵;
步骤3:采用LSTM神经网络对答案文本映射矩阵进行运算,获取所有或部分隐含层的输出,得到答案文本的语义特征矩阵;
步骤4:利用池化算法对所述语义特征矩阵进行下采样得到所述答案文本的语义特征向量;
步骤5:将步骤4获得的答案文本的语义特征向量赋予多类逻辑斯谛分类器,对答案文本的类别进行预测;
步骤6:根据预设的答案文本所属类别与得分的映射关系,确定答案文本的得分。
2.根据权利要求1所述方法,其特征在于,所述步骤2中,在预设的词典中,对答案文本中的每个词进行搜索以获得该词的向量化表示,然后依据每个词在答案文本中出现的先后顺序,构建答案文本映射矩阵;对于所述答案文本中的个别词没有出现在所述词典中的情况,可视其为停用词进行丢弃处理。
3.根据权利要求1所述方法,其特征在于,所述步骤3中,利用LSTM神经网络对答案文本映射矩阵M进行运算,提取答案文本的语义特征,生成答案文本的语义特征矩阵H,矩阵H由所述LSTM神经网络所有或部分隐含层的输出向量组成。
4.根据权利要求1所述方法,其特征在于,所述步骤3中,答案文本映射矩阵M输入LSTM神经网络的方式为:每一时刻输入矩阵M的一列至LSTM神经网络,矩阵M的列向量以列标升序排列依次输入LSTM神经网络,有效保留了答案文本的词序信息。
5.根据权利要求1所述方法,其特征在于,所述步骤3和步骤5中的LSTM神经网络模型参数及分类器模型参数均在所述评分模型训练过程中获得,采用最小化目标概率分布与实际概率分布的交叉熵为目标函数,利用梯度下降法计算批量样本误差,并使用反向传播法更新LSTM神经网络模型参数及分类器模型参数。
6.根据权利要求1所述方法,其特征在于,所述步骤4中生成的语义特征向量为输入答案文本的向量化语义特征表示,该向量化语义特征表示中包含了答案文本的词序信息及词语与文本语义之间的关联信息。
7.根据权利要求1所述方法,其特征在于,所述步骤4中采用的池化算法,所述池化方法采用最大池化法、或最小池化法、或平均池化法。
8.根据权利要求1所述方法,其特征在于,所述步骤6中答案文本所属类别与得分之间是多对一的关系,即允许不同类别的答案文本获得相同的得分,但不允许相同类别的答案文本获得不同的得分。
9.一种采用LSTM神经网络的中文短文本主观题自动评分系统,其特征在于,所述评分系统,包括输入模块、数据处理模块、语义特征提取模块、评分模块以及词典模块,其中:
输入模块,用于将所述答案文本传至数据处理模块;
数据处理模块,用于对所述输入的答案文本进行分词并构建相应的答案文本映射矩阵;将答案文本映射矩阵传至语义特征提取模块;
语义特征提取模块,用于获取所述答案文本的语义特征向量;包括LSTM神经网络层和池化层,将所述答案文本映射矩阵输入到LSTM神经网络,获取网络中部分或所有隐含层的输出,得到答案文本语义特征矩阵,然后将答案文本语义特征矩阵进行池化运算,获得答案文本语义特征向量,并将其传至评分模块;
评分模块,用于确定答案文本的得分;将所述答案文本语义特征向量赋予多类逻辑斯谛分类器,对答案文本的类别进行预测,然后根据预测的答案文本类别按照预设的映射关系映射为所述答案文本的得分,并输出评分结果;
词典模块,以数据表的形式储存预训练的词及对应的向量化表示,为数据处理模块提供数据的调用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学,未经北京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711177862.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:分屏查阅展示控制方法及其控制系统
- 下一篇:一种海量数据高效抽取平台