[发明专利]一种面向数字教育资源的实体对齐方法及系统有效

专利信息
申请号: 201910431436.9 申请日: 2019-05-22
公开(公告)号: CN110162591B 公开(公告)日: 2022-08-19
发明(设计)人: 季一木;刘艳兰;刘强;刘尚东;尧海昌;李奎;许正阳 申请(专利权)人: 南京邮电大学
主分类号: G06F16/31 分类号: G06F16/31;G06F16/33;G06F40/295
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 彭雄
地址: 江苏省南京*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种面向数字教育资源的实体对齐方法及系统,首先通过学科主题树对已有教育资源库进行学科分块,并在每个教育资源块内构建分区索引体系;然后SKE算法提取待对齐数字教育资源的知识点标签,通过索引筛选出实体对齐候选集;接着计算候选集中实体对的知识点标签相似性、属性值相似度和文本资源相似度;最后通过将计算得到的实体对相似性数据作为特征值输入构建好的决策树,判定其对齐结果。采用本方法进行数字教育资源的实体对齐,能够大幅度降低实体对齐计算复杂度,提高对齐效率;提升数字教育资源的文本相似度计算精度,从而提高实体对齐准确率。
搜索关键词: 一种 面向 数字 教育 资源 实体 对齐 方法 系统
【主权项】:
1.一种面向数字教育资源的实体对齐方法,其特征在于,包括以下步骤:步骤1,对数字化教育资源进行分块;步骤2,构建分区索引体系,采用hash索引对每一个学科类别下的数字教育资源的知识点标签分别构建相应索引体系;步骤3,提取待对齐数字教育资源的知识点标签,对待融合的教育资源数据进行简单清洗,只保留文本数据,并使用jieba分词工具对其进行分词、词性标注并去除停用词,得到词语集;然后使用SKE算法计算词语集中每个词汇的关健度,并选出关健度高的前5位作为该教育资源的知识点标签;步骤4,筛选候选实体对,根据步骤3中得到的教育资源的知识点标签,分别在步骤2中构建的hash索引中进行搜索,若有该知识点,则获取该知识点所关联的数字化教育资源ID,即局部实体对齐候选集,将局部Ei:{e1,e2…ej};最后将局部候选集合并,去掉重复资源,得到最终实体对齐候选集E=E1∪E2∪E3∪E4∪E5={e1,e2…en},则候选实体对集记为{e0_e1,e0_e2…e0_en};若E={},则将该资源直接加入资源库;步骤5,计算实体对知识点标签相似性;使用Jaccard相似系数来计算两实体间知识点相似性:其中,A表示实体e1的知识点集合,B表示实体e2的知识点集合,J(A,B)则表示两知识点集合的交集与并集的比值,记为Sam(table);步骤6,计算实体对属性值相似度;依次取出候选实体集E中的资源与待对齐资源进行对比,先根据映射规则匹配两个资源的属性名,当指向同一属性时,再根据编辑距离计算属性值相似度,最后累加所有属性相似度得到两个教育资源实体之间的属性相似度Sam(attribute);步骤7,计算实体对中文本资源相似度;获取教育资源简介信息,先对信息文本进行分词、去除停用词的处理,使用构建好的LDA主题模型计算两个文本的主题分布概率,并依次作为该文本的向量表示;可选定合适的主题数k作为向量维度,则art1=(TM11,TM12…TM1k),art2=(TM21,TM22…TM2k),其中art代表文本,TM代表某一主题词在文本中出现的概率值;最后使用余弦相似度计算两个文本间相似度,Sam(art1,art2)=Cos(art1,art2);步骤8,构建判断实体对齐的决策树;前期通过计算实体对间标签相似度Sam(table)、属性相似度Sam(attribute)、文本相似度Sam(art1,art2),人工标记对齐情况,获取一定数量的训练集;以Sam(table)、Sam(attribute)、Sam(art1,art2)及相应取值作为实体对的特征与特征值输入,通过训练构建判定实体对是否对齐的决策树;步骤9,判定候选实体对是否匹配;通过步骤8构建好的决策树判定候选实体对集记{e0_e1,e0_e2…e0_en}中实体对是否对齐;若有对齐实体对,则生成新的对齐实体,加入数字教育资源库中;若无对齐实体对,则将待对齐实体作为独立实体加入数字教育资源库中,并将其与相应知识标签做好链接。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910431436.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top