[发明专利]一种面向学科教育资源的知识图谱构建方法在审
申请号: | 201810451382.8 | 申请日: | 2018-05-11 |
公开(公告)号: | CN108664615A | 公开(公告)日: | 2018-10-16 |
发明(设计)人: | 刘海;杨宗凯;刘三女牙;张昭理;舒江波;李志飞;刘婷婷 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 李丹 |
地址: | 430079 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图谱 学科教育 图谱构建 构建 学科 知识库 错误信息 关系信息 教育资源 信息检索 信息冗余 学科知识 语义关联 知识表现 资源内容 可视化 三元组 体系化 系统化 推理 整合 隐含 剔除 进化 分类 挖掘 更新 应用 管理 | ||
1.一种面向学科教育资源的知识图谱构建方法,其特征在于,包括以下步骤:
1)学科资源信息抽取:从经过数字化处理、能在多媒体计算机及网络环境下运行的多媒体教学材料中抽取学科领域词汇和关系,具体如下:
1.1)基于语言学规则的方法对学科资源中的文本信息进行分词和词性标注;
1.2)使用TF-IDF统计学基准比较分析词汇分布特征,计算词汇在资源中的相对重要程度;
1.3)对学科资源中的文本信息中的学科领域词汇进行抽取;
2)词汇和关系信息的清理整合:对步骤1)中抽取的信息在同一框架规范下进行数据处理操作,形成高质量的知识库;具体步骤如下:
2.1)输入抽取的词汇和关系的详细信息,包括数据名称、地址和对应的资源,并且给每个预设定的质量维度分配一个权重;
2.2)利用专家系统得到实体信息的重要程度,并结合质量维度的权重计算实体信息相应的分值;
2.3)统计所有实体信息对应的权重和分值,得到实体数据的得分,然后过滤得分后50%的实体信息;
3)根据知识库构建学科资源图谱,构建的具体步骤如下:
3.1)在步骤2)高质量知识库的基础上,对这些知识进行语义关联,形成“实体-关系-实体”三元组的知识表现形式;
3.2)将知识库中的每个三元组(h,r,t)的头实体和尾实体向关系空间中投影,让其满足头实体h加对应关系r等于尾实体t(h+r≈t)的条件,据此思路构建一个实体表征模型的损失函数:
其中,d(h+r,t)是一个距离函数用于度量h+r与t之间的距离,S为知识库中的三元组,S’是负采样的三元组,[x]+表示正值函数;
通过使损失函数值趋近于最小值优化上述目标函数即可得到关于知识的特征表达;
4)知识图谱进化更新,具体步骤如下:
4.1)对知识图谱本体中的元素进行更新,包括概念的增加、修改和删除,以及概念属性的更新;
4.2)通过新增实体数据对知识图谱进行更新,包括添加和删除实体,修改实体的基本信息和属性值。
2.根据权利要求1所述的面向学科教育资源的知识图谱构建方法,其特征在于,步骤1.2)中基于TF-IDF方法统计资源中词汇的重要程度的方法具体步骤如下:
a.统计某个词汇w在一个资源中出现的总次数,计算出该词汇的出现频率tf(w);
b.统计包含词汇w的资源数目,计算出该词汇出现在全部资源N中的频率df(w);
c.统计总资源中词汇w的重要程度
3.根据权利要求1所述的面向学科教育资源的知识图谱构建方法,其特征在于,所述步骤1.3)中采用基于Bootstrapping机器学习技术的FWB-Model学习模型。
4.根据权利要求1所述的面向学科教育资源的知识图谱构建方法,其特征在于,所述步骤1.3)中基于FWB-Model学习模型的资源信息抽取方法,其具体步骤如下:
a.统计语料中的单字字频C(x),其中x为语料中出现过的单字,和与x有相邻关系的双字(x,y)的共现频率C(x,y),使其满足C(x,y)>cThresh,其中cThresh为阈值,得到双字候选项(x,y)的集合L;
b.对于一个多字项c,所述多字项为两个或两个以上的字项,如果在语料中有单字w与其相邻,且满足共现频率H(w,c)>H(c1,c2)-k;c1,c2为c分拆的两部分,k为阈值,则获得多字词汇cw;得到多字词汇的集合T;
c.通过步骤b得到词汇集合T,利用通用词表和一般语料进行对比过滤,对于t∈T,如果满足C(t)>termCountThresh,其中C(t)为t在通用词表和一般语料中出现的频率,termCountThresh为阈值,则推断其为一般词汇,需要从集合中过滤出来,剩下的词汇作为抽取结果输出。
5.根据权利要求1所述的面向学科教育资源的知识图谱构建方法,其特征在于,所述步骤2)中的专家系统包括采用调查问卷或向专家咨询形式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810451382.8/1.html,转载请声明来源钻瓜专利网。