[发明专利]一种基于向量空间的产业链知识图谱的构建方法及装置在审

专利信息
申请号: 202110323249.6 申请日: 2021-03-25
公开(公告)号: CN112988974A 公开(公告)日: 2021-06-18
发明(设计)人: 彭青松 申请(专利权)人: 上海园域信息科技有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/36;G06F40/216;G06F40/295
代理公司: 南京鼎傲知识产权代理事务所(普通合伙) 32327 代理人: 刘蔼民
地址: 200000 上海市崇明区横沙乡富民*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 向量 空间 产业链 知识 图谱 构建 方法 装置
【说明书】:

发明公开了一种基于向量空间的产业链知识图谱的构建方法,包括如下步骤:S1、构建向量空间模型(VSM):将产业链知识图谱的三元组抽象成一个向量;S2、计算每个词项在向量中的权重TF‑IDF;S3、余弦相似度计算;S4、根据计算得到的值进行相似度计算,值越大表示两个三元组的信息相似度越高,就越有可能发生重名或者多名现象,通过对比产业链知识图谱中的所有三元组完成该知识图谱的知识融合,本发明中通过使用基于向量空间的计算方法,解决了产业链知识图谱构建过程中出现的实体重名、多名已经名称歧义等问题,对于知识图谱中的实体进行实体识别、歧义消解和指代消解,从而对于产业链知识图谱的实体进行去重,获得更加准确的数据。

技术领域

本发明涉及知识图谱技术领域,具体为一种基于向量空间的产业 链知识图谱的构建方法及装置。

背景技术

知识图谱本质上是一种语义网络,用图的形式描述客观事物,图 由节点和边组成的,知识图谱中的节点表示概念和实体,概念是抽象 出来的事物,实体是具体的事物;边表示事物的关系和属性,事物的 内部特征用属性来表示,外部联系用关系来表示,实体可以是人,地 方,组织机构,概念等等,关系的种类更多,可以是人与人之间的关 系,人与组织之间的关系,概念与某个物体之间的关系等等,知识图 谱以“实体-关系-实体”或“实体-属性-属性值”的三元组存储,形 成一个图状知识库,其中,实体是知识图谱的基本元素,指具体的人 名、组织机构名、地名、日期、时间等,关系是两个实体之间的语义 关系,是模式层所定义关系的实例,属性是对实体的说明,是实体与 属性值之间的映射关系,在知识图谱的数据层,节点表示实体,边表 示实体间关系或实体的属性;

在进行产业链知识图谱构建时,会碰到很多汉语命名的实体识别 和实体名称歧义,另外,还有名称歧义的问题,解决实体识别和歧义 消解的过程就是知识融合,目前,主流的知识融合技术就是基于规则、 基于统计或者进行人工干预,所以急需一种基于向量空间的计算方法, 通过计算各个实体名称之间的余弦相似度,从而进行知识图谱的知识 融合。

发明内容

本发明提供一种基于向量空间的产业链知识图谱的构建方法及 装置,可以有效解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种基于向量空间 的产业链知识图谱的构建方法,包括如下步骤:

S1、构建向量空间模型(VSM):将产业链知识图谱的三元组抽象 成一个向量;

S2、计算每个词项在向量中的权重TF-IDF;

S3、余弦相似度计算;

S4、根据计算得到的值进行相似度计算,值越大表示两个三元组 的信息相似度越高,就越有可能发生重名或者多名现象,通过对比产 业链知识图谱中的所有三元组完成该知识图谱的知识融合。

根据上述技术方案,所述S1中向量由n个Term组成,每个词都 有一个权重(TermWeight),不同的词根据自己在文档中的权重来影 响文档相关性的重要程度。

根据上述技术方案,所述S2中TF-IDF表示TF(词频)和IDF (逆文档频率)的乘积:

其中:TF-IDF=词频(TF)×逆文档频率(IDF):

把产业链的知识图谱看作为一篇文章,词频(Term Frequency, 简称TF)表示特征词出现的次数除以该文章总词数:

其中TF表示某个关键词出现的频率;

IDF为所有三元组的数目除以包含该词语的三元组数目的对数值;

其中|D|表示所有文档的数目;

|w∈d|表示包含词语w的文档数目。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海园域信息科技有限公司,未经上海园域信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110323249.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top