[发明专利]一种面向数字教育资源的实体对齐方法及系统有效
申请号: | 201910431436.9 | 申请日: | 2019-05-22 |
公开(公告)号: | CN110162591B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 季一木;刘艳兰;刘强;刘尚东;尧海昌;李奎;许正阳 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F40/295 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
地址: | 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 数字 教育 资源 实体 对齐 方法 系统 | ||
1.一种面向数字教育资源的实体对齐方法,其特征在于,包括以下步骤:
步骤1,对数字化教育资源进行分块:获取数字教育资源库中数字教育资源及其对应学科标签;参照知识库中的学科分类体系,构建一个粗分类的学科主题树;然后根据数字教育资源及其对应学科标签,按照学科主题树中的学科分类将数字教育资源进行聚簇;
步骤2,构建分区索引体系:在步骤1基础上,采用hash索引对每一个学科类别下的数字教育资源的知识点标签分别构建相应索引体系;以数字教育资源实体的知识点标签为索引键值,构建一个关于知识点标签的hash索引函数,将具有相同索引键值的数字教育资源实体分配到同一桶内,并且数字教育资源实体对齐工作只在该桶内进行;
步骤3,提取待对齐数字教育资源的知识点标签:对待融合的数字教育资源进行清洗,得到词语集;然后使用SKE算法计算词语集中每个词汇的关健度,并选出关健度高的前n位作为该数字教育资源的知识点标签;
步骤4,筛选候选实体对:根据步骤3中得到的数字教育资源的知识点标签,分别在步骤2中构建的hash索引函数中进行搜索,若有该知识点标签,则获取该知识点标签所关联的数字化教育资源ID,即局部实体对齐候选集;最后将局部候选集合并,并去掉重复资源,得到最终实体对齐候选集,则候选实体对集记为{e0_e1, e0_e2…e0_en};若,则将该资源直接加入资源库;
步骤5,计算实体对知识点标签相似性:使用Jaccard相似系数来计算两实体间知识点相似性;
其中,A表示实体一的知识点集合,B表示实体二的知识点集合,J(A,B)则表示两知识点集合的交集与并集的比值,记为Sam(table);
步骤6,计算实体对属性值相似度:通过编订映射规则,依次取出候选实体集E中的资源与待对齐资源进行对比,先根据映射规则匹配两个资源的属性名,当指向同一属性时,再根据编辑距离计算属性值相似度,最后累加所有属性相似度得到两个教育资源实体之间的属性相似度Sam(attribute);
步骤7,计算实体对中文本资源相似度:获取教育资源简介信息,先对信息文本进行分词、去除停用词的处理,使用构建好的LDA主题模型计算两个文本的主题分布概率,并依次作为该文本的向量表示;选定主题数k作为向量维度,则art1=(TM11, TM12…TM1k), art2=(TM21, TM22…TM2k),其中,art代表文本,TM代表某一主题词在文本中出现的概率值;最后使用余弦相似度计算两个文本间相似度,Sam(art1,art2)=Cos(art1,art2);
步骤8,构建判断实体对齐的决策树:前期通过计算实体对间标签相似度Sam(table)、属性相似度Sam(attribute)、文本相似度Sam(art1,art2),人工标记对齐情况,获取训练集;以Sam(table)、Sam(attribute)、Sam(art1,art2)及相应取值作为实体对的特征与特征值输入,通过训练构建判定实体对是否对齐的决策树;
步骤9,判定候选实体对是否匹配:通过步骤8构建好的决策树判定候选实体对集记{e0_e1, e0_e2…e0_en}中实体对是否对齐;若有对齐实体对,则生成新的对齐实体,加入数字教育资源库中;若无对齐实体对,则将待对齐实体作为独立实体加入数字教育资源库中,并将其与相应知识标签做好链接。
2.根据权利要求1所述面向数字教育资源的实体对齐方法,其特征在于:步骤3中对待融合的数字教育资源进行清洗,只保留文本数据,并使用jieba分词工具对其进行分词、词性标注并去除停用词,得到词语集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910431436.9/1.html,转载请声明来源钻瓜专利网。