[发明专利]一种从多源数据构建具有多重关系的教育概念图方法有效
申请号: | 202010235272.5 | 申请日: | 2020-03-30 |
公开(公告)号: | CN111428052B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 刘淇;陈恩红;黄小青;王超;马建辉;苏喻 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N20/10;G06N20/00;G06Q50/20 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 构建 具有 多重 关系 教育 概念 方法 | ||
1.一种从多源数据构建具有多重关系的教育概念图方法,其特征在于,包括:
步骤11、爬取多源数据,使用数据挖掘方法,提取出概念文本,构成训练数据集;
步骤12、获取专家对训练数据集的标注结果,标注结果包括:根据概念重要程度为各个概念标注的教育关键概念或非教育关键概念的标签,以及教育关键概念对之间的先决条件关系和共同学习关系;按照概念的来源以及概念的标签,提取概念以及概念之间的相关特征;
步骤13、利用标注后的训练数据集结合传统机器学习方法,训练用于预测教育关键概念的支持向量机,以及基于训练数据集中标注出的教育关键概念及教育关键概念对之间的先决条件关系和共同学习关系,结合传统机器学习方法,训练用于预测教育关键概念对的先决条件关系和共同学习关系的混合模型;
步骤14、利用训练好的支持向量机与混合模型对新的数据集进行教育概念图的构建;
其中,按照概念的来源,所要提取的特征包括:对于每一数据源的概念语义相似度特征,包括:标题匹配特征,用来表示概念是否出现在标题中;概念匹配特征,用来概念对之间的关系;词表征相似度,用来表示概念对在向量空间的相似性与距离;
维基百科链接特征,包括:概念对在维基百科页面中的出入度、概念对的公共邻居程度、维基百科摘要定义、归一化的谷歌页面距离以及引用距离;
课本结构化特征与概念共现程度,其中,课本结构化特征包括:目录结构化特征以及课本间结构化特征;概念共现程度,用来表示一个概念对在一个句子中同时出现的次数;
试题答题记录特征,包括:概念频率特征、概念难度距离、试题内容分析距离以及学生答题记录特征;
上述的标题匹配特征、概念频率特征以及概念对在维基百科页面中的出入度是针对单个概念而言,不区分概念是否是教育关键概念;而其余特征是针对概念对而言,只针对教育关键概念对进行提取;
标题匹配特征表示为:
TM(wi,ct)∈{0,1}
其中,ct∈{CT,pt,q′},q′表示试题q的标题,wi表示一个概念,当概念wi出现在相应的标题中,则TM(wi,ct)=1;否则,TM(wi,xt)=0;
概念匹配特征表示为:
其中,(wi,wj)为一个概念对,||.||表示数目统计符号;
词表征相似度包括:余弦相似度WEcs(wi,wj)以及欧几里得距离WEed(wi,wj);
余弦相似度WEcs(wi,wj)反映了概念对(wi,wj)之间的语义关联,表示为:
欧几里得距离WEed(wi,wj)表示向量空间中概念对(wi,wj)的欧氏距离,表示为:
其中,分别表示概念wi、wj的词向量,k为向量中元素的序号,P为向量长度;
利用训练好的支持向量机与混合模型对新的数据集进行教育概念图的构建包括:
对于一个未发布的新数据集,按照步骤11的方式提取出各个概念文本,按照步骤12提取概念与概念之间的相关特征;然后,利用训练好的支持向量机与混合模型的参数及相关阈值,构造概念图G,步骤如下:
首先,按照步骤11的方式,提取各个概念文本,构成概念候选集合R,结合各候选概念的相关特征以及支持向量机的参数W1以及第一阈值K*,抽取关键概念集合C′,表示为:;
在得到关键概念集合C′的基础上,根据混合模型的参数W2与W3,以及两个阈值P2与P3,分别预测关键概念对{(wi′,wj′)|wi′,wj′∈C′}之间是否有先决条件关系以及共同学习关系:
其中,wi′,wj′=0表示概念wi′和概念wj′之间没有先决条件以及共同学习关系,wi′,wj′=1表示概念概念wi′和概念wj′之间有先决条件关系,wi′,wj′=2表示概念wi′和概念wj′之间有共同学习关系;分别表示关键概念集合C′中第l′个概念对(wi′,wj′)之间的用于预测先决条件关系、共同学习关系的相关特征;
以筛选出的关键概念集合C′中的每一教育关键概念作为节点,根据教育关键概念对之间是否存在先决条件关系与共同学习关系,来构造相应节点之间的连接关系,从而构建教育概念图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010235272.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:清洁机器人及其控制方法
- 下一篇:救援计划的确定方法、装置、服务器和存储介质
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置