[发明专利]面向知识测量的试题、知识、能力张量构建与标注方法有效

申请号：	202010032981.3	申请日：	2020-01-13
公开（公告）号：	CN111241243B	公开（公告）日：	2023-05-26
发明（设计）人：	王志锋;刘继斌;左明章;叶俊民;罗恒;闵秋莎;童名文;田元;夏丹	申请（专利权）人：	华中师范大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06Q10/0639;G06Q50/20;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08;G06F18/241
代理公司：	北京金智普华知识产权代理有限公司 11401	代理人：	杨采良
地址：	430079 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	面向知识测量试题能力张量构建标注方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向知识测量的试题、知识、能力张量构建与标注方法，其特征在于，所述面向知识测量的试题、知识、能力张量构建与标注方法包括以下步骤：

步骤一，结合Q矩阵与布卢姆认知领域教育目标分类，构建面向学习者知识水平测量的试题、知识、能力张量；

步骤二，对试题进行文本分词、去停用词预处理操作，利用词向量模型将试题向量化，结合知识点库、能力层级库、试题词向量、双向LSTM神经网络、卷积神经网络分别构建可解释知识标签预测模型和可解释能力标签预测模型；

步骤三，采用主动学习策略，构建可解释试题标签预测模型进行人机协同的标注，获得可解释的标签预测信息熵，将未标注样本输入构建的可解释试题标签预测模型，进行可解释的标签预测信息熵反馈；

步骤一具体包括：

步骤a)：结合Q矩阵和布卢姆认知领域教育目标分类，构建表征试题、知识、能力间综合关系的试题、知识、能力张量；

步骤b)：试题、知识、能力张量为P＝{P_tka}_T×K×A，表示试题t考查知识点k对应的能力层级a，其中T为试题空间，0≤t≤T，K为知识空间，0≤k≤K，A为能力空间，0≤a≤A；

步骤c)：试题空间T为所考查试题的编号序列组成的集合；

步骤d)：知识空间K为试题空间T所考查知识点的集合；

步骤e)：能力空间A为知识认知能力水平的集合，依据布卢姆认知领域教育目标分类，将知识的掌握划分为六个认知能力水平：a₁知道、a₂领会、a₃应用、a₄分析、a₅综合、a₆评价，构建面向学习者知识水平测量的试题、知识、能力张量。

2.如权利要求1所述的面向知识测量的试题、知识、能力张量构建与标注方法，其特征在于，步骤二具体包括：

步骤1)：对待标注试题进行预处理，包括文本分词与去停用词；

步骤2)：将试题进行文本分词，基于混合词典，采用双向最大匹配法与统计相结合的方法，对试题文本进行混合分词；

步骤3)：首先利用双向最大匹配法，建立包含中文、英文、公式、特殊符号等在内的混合词典，将待分词的字符串和词典中的词条进行逐条双向匹配，如果匹配成功，则从待分词字符串中将该词条切割出来，由此完成初步切分；然后利用统计分词方法，使用大量已分词的文本，训练出统计概率模型，由于词经常是几个连续字的高频组合，当几个连续的字的共现频率达到一定程度时，就认为存在这样一个词，实现对未切分试题文本的分词；

步骤4)：对于混合分词结果去停用词；去除与句子、试题文本主题无关，对试题标注任务没有贡献的词，再者，频度过低的词对试题标注任务没有贡献，做为停用词来对待；建立停用词库，删除在停用词库中出现的词，删除频次过低的词；

步骤5)：利用词向量模型Word2vec的连续词袋模型CBOW处理试题，将预处理后输入的试题向量化；CBOW模型根据目标词上下文若干个词的词向量预测目标词的词向量，将试题向量化；

步骤6)：CBOW模型架构包括输入层、投影层和输出层；输入层由one-hot编码的输入上下文{x₁,...x_C}组成，窗口大小为C，词汇表大小为V，投影层是N维向量，输出层输出目标单词y的词向量表示；被one-hot编码的输入向量通过一个V×N维的权重矩阵W连接到投影层，投影层通过一个N×V的权重矩阵W'连接到输出层；

步骤7)：在CBOW模型中，定义损失函数，给定输入上下文的输出单词的条件概率，取对数计算为：

步骤8)：对上式求导，得到输出权重W'的更新规则：

步骤9)：同理权重W的更新规则为：

步骤10)：根据权重更新规则，计算投影层h的输出：

步骤11)：计算在输出层每个结点的输入，表示输出矩阵W'的第j列：

步骤12)：计算输出层的输出，输出y_j如下：

步骤13)：CBOW模型通过对上下文的学习，获得更多的语法信息，从规模试题数据中得到试题词向量输出；

步骤14)：利用试题词向量作为输入，结合知识点库、能力层级库，计算知识标签预测信息熵和能力标签预测信息熵；

步骤15)：BiLSTM网络采用两个LSTM从相反的方向获取不同试题的文本特征，计算式为：

其中a₁,a₂,b₁和b₂为权重系数，g(·)为隐层激活函数，为t时刻的前向隐层输出，为t时刻的后向隐层输出，最后融合两个方向在每个时刻的隐层输出构建最终输出h_t：

其中c₁和c₂为权重系数，f(·)为输出激活函数；

步骤16)：卷积层引入多卷积核进行卷积操作，卷积核窗口宽度d和BiLSTM网络的输出宽度保持一致，卷积输出向量v的第i个值的计算如下：