[发明专利]面向知识测量的试题、知识、能力张量构建与标注方法有效
申请号: | 202010032981.3 | 申请日: | 2020-01-13 |
公开(公告)号: | CN111241243B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 王志锋;刘继斌;左明章;叶俊民;罗恒;闵秋莎;童名文;田元;夏丹 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06Q10/0639;G06Q50/20;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08;G06F18/241 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 杨采良 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 知识 测量 试题 能力 张量 构建 标注 方法 | ||
1.一种面向知识测量的试题、知识、能力张量构建与标注方法,其特征在于,所述面向知识测量的试题、知识、能力张量构建与标注方法包括以下步骤:
步骤一,结合Q矩阵与布卢姆认知领域教育目标分类,构建面向学习者知识水平测量的试题、知识、能力张量;
步骤二,对试题进行文本分词、去停用词预处理操作,利用词向量模型将试题向量化,结合知识点库、能力层级库、试题词向量、双向LSTM神经网络、卷积神经网络分别构建可解释知识标签预测模型和可解释能力标签预测模型;
步骤三,采用主动学习策略,构建可解释试题标签预测模型进行人机协同的标注,获得可解释的标签预测信息熵,将未标注样本输入构建的可解释试题标签预测模型,进行可解释的标签预测信息熵反馈;
步骤一具体包括:
步骤a):结合Q矩阵和布卢姆认知领域教育目标分类,构建表征试题、知识、能力间综合关系的试题、知识、能力张量;
步骤b):试题、知识、能力张量为P={Ptka}T×K×A,表示试题t考查知识点k对应的能力层级a,其中T为试题空间,0≤t≤T,K为知识空间,0≤k≤K,A为能力空间,0≤a≤A;
步骤c):试题空间T为所考查试题的编号序列组成的集合;
步骤d):知识空间K为试题空间T所考查知识点的集合;
步骤e):能力空间A为知识认知能力水平的集合,依据布卢姆认知领域教育目标分类,将知识的掌握划分为六个认知能力水平:a1知道、a2领会、a3应用、a4分析、a5综合、a6评价,构建面向学习者知识水平测量的试题、知识、能力张量。
2.如权利要求1所述的面向知识测量的试题、知识、能力张量构建与标注方法,其特征在于,步骤二具体包括:
步骤1):对待标注试题进行预处理,包括文本分词与去停用词;
步骤2):将试题进行文本分词,基于混合词典,采用双向最大匹配法与统计相结合的方法,对试题文本进行混合分词;
步骤3):首先利用双向最大匹配法,建立包含中文、英文、公式、特殊符号等在内的混合词典,将待分词的字符串和词典中的词条进行逐条双向匹配,如果匹配成功,则从待分词字符串中将该词条切割出来,由此完成初步切分;然后利用统计分词方法,使用大量已分词的文本,训练出统计概率模型,由于词经常是几个连续字的高频组合,当几个连续的字的共现频率达到一定程度时,就认为存在这样一个词,实现对未切分试题文本的分词;
步骤4):对于混合分词结果去停用词;去除与句子、试题文本主题无关,对试题标注任务没有贡献的词,再者,频度过低的词对试题标注任务没有贡献,做为停用词来对待;建立停用词库,删除在停用词库中出现的词,删除频次过低的词;
步骤5):利用词向量模型Word2vec的连续词袋模型CBOW处理试题,将预处理后输入的试题向量化;CBOW模型根据目标词上下文若干个词的词向量预测目标词的词向量,将试题向量化;
步骤6):CBOW模型架构包括输入层、投影层和输出层;输入层由one-hot编码的输入上下文{x1,...xC}组成,窗口大小为C,词汇表大小为V,投影层是N维向量,输出层输出目标单词y的词向量表示;被one-hot编码的输入向量通过一个V×N维的权重矩阵W连接到投影层,投影层通过一个N×V的权重矩阵W'连接到输出层;
步骤7):在CBOW模型中,定义损失函数,给定输入上下文的输出单词的条件概率,取对数计算为:
步骤8):对上式求导,得到输出权重W'的更新规则:
步骤9):同理权重W的更新规则为:
步骤10):根据权重更新规则,计算投影层h的输出:
步骤11):计算在输出层每个结点的输入,表示输出矩阵W'的第j列:
步骤12):计算输出层的输出,输出yj如下:
步骤13):CBOW模型通过对上下文的学习,获得更多的语法信息,从规模试题数据中得到试题词向量输出;
步骤14):利用试题词向量作为输入,结合知识点库、能力层级库,计算知识标签预测信息熵和能力标签预测信息熵;
步骤15):BiLSTM网络采用两个LSTM从相反的方向获取不同试题的文本特征,计算式为:
其中a1,a2,b1和b2为权重系数,g(·)为隐层激活函数,为t时刻的前向隐层输出,为t时刻的后向隐层输出,最后融合两个方向在每个时刻的隐层输出构建最终输出ht:
其中c1和c2为权重系数,f(·)为输出激活函数;
步骤16):卷积层引入多卷积核进行卷积操作,卷积核窗口宽度d和BiLSTM网络的输出宽度保持一致,卷积输出向量v的第i个值的计算如下:
vi=W·Hi:(i+j-1)+b,W∈Rj×d;
其中,W为卷积层权重系数,H为BiLSTM输出试题文本特征,b为偏置项,j为卷积核个数;
步骤17):在池化层使用均值池化策略,在领域内取特征值的平均作为输出,获取整个窗口信息内代表性信息,减少试题文本特征维数和模型网络参数个数;
步骤18):在Softmax层获取知识标签与能力标签的预测概率,把步骤15-步骤17)网络提取的试题文本特征表示输入Softmax函数,获得知识标签预测概率Pk、能力标签预测概率Pa:
其中Ok为知识标签预测模型输出向量OK的第k个元素,Oa为能力标签预测模型输出向量OA的第a个元素,e(·)为指数函数;
步骤19):依据知识标签预测概率Pk和能力标签预测概率Pa构建知识标签预测信息熵EK、能力标签预测信息熵EA:
标签预测信息熵越大,对试题标签预测的结果越不确定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010032981.3/1.html,转载请声明来源钻瓜专利网。