[发明专利]一种开源项目知识图谱的优化方法和系统有效
申请号: | 202010643010.2 | 申请日: | 2020-07-06 |
公开(公告)号: | CN111949307B | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 孙艳春;黄罡;孙志玉 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F8/71 | 分类号: | G06F8/71;G06F8/30;G06F16/36;G06F16/901 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苟冬梅 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 项目 知识 图谱 优化 方法 系统 | ||
本发明实施例提供了一种开源项目知识图谱的优化方法和系统,该方法和系统具体为:分别构建开源项目的各个发行版本的原始知识图谱;将多个原始知识图谱的知识进行链接,生成多版本知识融合的知识图谱;对所述多版本知识融合的知识图谱进行剪枝,生成目标知识图谱;使用OpenKE框架设计知识嵌入模型TransE,并对所述模型TransE进行训练;通过所述模型TransE,生成所述目标知识图谱的嵌入表示。本发明实施例提供的方法和系统,生成开源项目多版本知识融合的知识图谱,并对所述知识图谱进行剪枝并生成嵌入表示,从多个角度对开源项目的知识图谱进行优化,以更好地帮助开发者对项目代码的学习。
技术领域
本发明涉及开源项目技术领域,特别是涉及一种开源项目知识图谱的优化方法和一种开源项目知识图谱的优化系统。
背景技术
开源项目(open source project),是一种开放源码的软件项目,开发者可以通过开源社区修改开源项目的源码,定制自己的个性化产品。
大型的开源项目通常会由多个开发者共同参与开发,并吸引众多的开发者来学习该开源项目的源代码,这些开发者在不断的学习和技术历练之后,也可能进入到开源项目的主要分支中,为开源项目贡献自己的力量。
为了帮助新加入的开发者快速地找到他们需要的项目代码,并为其获取项目代码的相关知识和注释,进而高效地学习,有人提出根据多源数据为开源项目建立一种内部多维特征关联的知识图谱,以此表示开源项目代码的组织结构,方便新加入的开发者对源代码和相关的注释知识进行快速的检索,进而提高学习效率。
但是,上述开源项目的知识图谱,仍然存在缺陷:1、项目代码的迭代可能会使不同版本的程序之间存在信息的变化,即,数据格式、表现形式等不一致,从而导致知识链接的中断,开发者缺乏历史版本代码的知识信息,产生阅读的资料和实际使用的项目版本无法对应等问题;2、广泛的数据来源导致整个知识图谱过于冗杂,影响后续算法的时间开销,而大部分知识信息的有效性不高,也不利于开发者高效地学习。
发明内容
鉴于上述问题,提出了本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的开源项目知识图谱的优化方法和相应的开源项目知识图谱的优化系统。
为了解决上述问题,本发明实施例提供了一种开源项目知识图谱的优化方法,所述方法包括:针对开源项目的历史发行版本和当前版本,分别构建所述开源项目的原始知识图谱;将所述历史发行版本的原始知识图谱的知识,链接到所述当前版本的原始知识图谱的知识上,生成多版本知识融合的知识图谱;对所述多版本知识融合的知识图谱进行剪枝,生成目标知识图谱,包括:清洗所述多版本知识融合的知识图谱的边缘子图和非核心子图,并保留最大连通子图作为知识图谱的主体部分,进而得到所述目标知识图谱;使用OpenKE框架设计知识嵌入模型TransE,并对所述模型TransE进行训练,通过所述模型TransE,生成所述目标知识图谱的嵌入表示。
可选地,针对开源项目的历史发行版本和当前版本,分别构建所述开源项目的原始知识图谱,包括:若监测到所述开源项目的版本提交记录有更新,则利用所述开源项目的开发期间在版本提交记录中使用的版本控制系统中的Tag功能,查找所述开源项目每个发行版本所处的提交位置,以此将项目回滚到各历史发行版本和当前版本,并分别抽取各历史发行版本和当前版本的项目代码知识信息,分别生成所述开源项目各历史发行版本和当前版本的原始知识图谱。
可选地,对所述多版本知识融合的知识图谱进行剪枝,生成目标知识图谱,包括:基于知识图谱的图属性,对所有出度或入度小于等于1的知识图谱节点进行至少一轮清洗,以此清洗所述多版本知识融合的知识图谱中的边缘子图和非核心子图,进而保留最大连通子图作为知识图谱的主体部分,生成所述目标知识图谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010643010.2/2.html,转载请声明来源钻瓜专利网。