[发明专利]基于文本分析及关联规则挖掘的概念图自动生成方法在审
申请号: | 201810932453.6 | 申请日: | 2018-08-16 |
公开(公告)号: | CN109299282A | 公开(公告)日: | 2019-02-01 |
发明(设计)人: | 邵增珍;李彦聪;郭延辉;赵学臣;王萧;董树霞 | 申请(专利权)人: | 山东女子学院 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F17/27 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李琳 |
地址: | 250300 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 概念图 关联规则挖掘 文本分析 自动生成 文本分类 试题 数据挖掘算法 生成算法 手工分类 结构化 文本 分类 监督 | ||
1.一种基于文本分析及关联规则挖掘的概念图自动生成方法,其特征是:基于文本分析技术中的文本分类方法,将试题分类到对应的概念中,采用有监督的数据挖掘算法处理无结构化的试题文本;将文本分析技术中的文本分类方法同关联规则挖掘相结合,得到生成的概念图。
2.如权利要求1所述的一种基于文本分析及关联规则挖掘的概念图自动生成方法,其特征是:在试题文本分析阶段,从试题中提取文本特征,建立分类模型,并利用文本分析中的文本分类方法将试题分类到概念,获得试题和概念之间的关联。
3.如权利要求1所述的一种基于文本分析及关联规则挖掘的概念图自动生成方法,其特征是:在概念间的关联规则挖掘阶段,首先生成测试问题频繁项集,并结合答题记录,将前一阶段获取的试题和概念之间的关联,映射为概念之间的关联,最终生成概念图。
4.如权利要求3所述的一种基于文本分析及关联规则挖掘的概念图自动生成方法,其特征是:所述测试问题频繁项集为测试问题的出现频率高于设定值的所有测试问题集合。
5.如权利要求1所述的一种基于文本分析及关联规则挖掘的概念图自动生成方法,其特征是:试题文本分析阶段,对试题文本进行分词和停用词的过滤,继而进行文本特征的提取,对提取的特征进行分类,得到分类结果,将试题自动分类到概念。
6.如权利要求5所述的一种基于文本分析及关联规则挖掘的概念图自动生成方法,其特征是:选择TF-IDF方法来提取文本特征,并将分词及停用词过滤后的试题转化为可被计算机理解的向量空间模型;
更进一步的,对提取的文本特征进行赋予权重,权重的大小根据该文本特征项的词频与该特征在整个文本数据集中出现的次数的乘积。
7.如权利要求6所述的一种基于文本分析及关联规则挖掘的概念图自动生成方法,其特征是:在模型分类前,将试题文本特征划分为训练样本Wtrain和待分类样本Wtest,待分类样本Wtest是需要借助专家经验手工分类到概念的试题,训练样本Wtrain和待分类样本Wtest中的每个试题文本特征都有一个分类标签,每一个分类标签都表示一个概念,利用k-NN模型算法进行训练样本的训练与分类;
更进一步的,将k-NN模型分类的结果转化为试题-概念矩阵QC,表示为如下形式:
其中,qcjx指示试题Qj是否属于概念Cx,qcjx∈{0,1},m表示试题的数量。当qcjx=1时,表示试题Qj属于概念Cx,当qcjx=0,表示Qj不属于概念Cx。
8.如权利要求1所述的一种基于文本分析及关联规则挖掘的概念图自动生成方法,其特征是:在挖掘关联规则之前,将答题记录数字化为成绩矩阵,引入答题记录一致性,答题记录一致性即成绩矩阵中每两行成绩的同或值,表示在每两道试题中同时答对或同时答错的人数,如果两个试题间的关联小于设定阈值则将相关试题不计入后续的计算与考虑,减少试题关联数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东女子学院,未经山东女子学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810932453.6/1.html,转载请声明来源钻瓜专利网。