[发明专利]一种基于语义空间映射的知识图谱管理方法和系统有效

专利信息
申请号: 201410253673.8 申请日: 2014-06-10
公开(公告)号: CN104035917B 公开(公告)日: 2017-07-07
发明(设计)人: 王晓平;肖仰华;汪卫 申请(专利权)人: 复旦大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 上海正旦专利代理有限公司31200 代理人: 陆飞,盛志范
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语义 空间 映射 知识 图谱 管理 方法 系统
【权利要求书】:

1.一种基于语义空间映射的知识图谱管理方法,其特征在于具体步骤分为:语义向量构建、语义空间映射、知识图谱管理;其中:

(1)语义向量构建的具体步骤如下:

基于语料库构建语义向量库,使得文本单元映射到语义空间上的向量;

构建语义向量的训练数据采用维基百科知识库作为用Word2Vec方法训练语义向量的语料库,并用训练结果构建语义向量库;

(2)语义空间映射

将知识图谱中表示边结点的文本映射为语义空间中的向量,具体步骤如下:

(2.1)对知识图谱中的边/结点中的词语进行过滤处理,去除其中无语义的停用词;

(2.2)对经步骤(2.1)操作处理后保留的每一个词语,从已经构建好的语义向量库中获取其在语义空间中的投影向量,然后将这些词语对应的语义向量进行累加,进而得到表征该边/结点的总体语义向量;

(3)知识图谱管理分为三个分步骤:语义聚类、语义去重、语义标注;

(3.1)语义聚类的具体步骤如下:

对待聚类的边/结点集合,首先基于构建好的语义向量库进行语义空间映射,然后进一步地对获得的这些语义向量进行聚类;

(3.2)语义去重的具体步骤如下:

对于语义聚类的结果,对被聚在同一类中的边/结点集合,通过计算典型边/典型结点取代原先的类集合元素来降低语义信息的冗余性,其选取依据是:

公式的含义是选取使函数取最大值时所对应的k作为Typical,Typical是指选取的典型边或者典型结点;

这里, Vk是待合并集合中对应第k个关系/实体的语义向量,V是待合并集合中所有关系/实体的累积语义向量,Sim(a,b)表示向量a和向量b的相似度;

(3.3)语义标注具体步骤如下:

(3.3.1)边/结点模型构建:

对于聚类后的边/结点,基于其对应的语义向量集合构建边/结点模型;

同时,手工为每一类关系/实体标定出其对应的类型标签;

为对应i类边/结点的均值向量,i∈{1,2,…,N},N为边/结点模型库中的模型数目;

其中,mi,j表示第i类中第j个向量,ni为该类中的样本个数,为均值向量;

在模型构建完成后,即将边/结点模型添加进边/结点模型库;

(3.3.2)边/结点识别

对于待查询的边/结点,在按语义空间映射所述步骤获得边/结点语义向量表征后,将该向量与关系模型库中的边/结点模型依次进行比较,其中,对均值向量模型、高斯模型,可直接比较向量间相似度或者是计算输入向量属于模型的概率值,遍历后取最高值对应的类别作为输出;对人工神经网络、支持向量机,则是直接输出对应的类别;

(3.3.3)边/结点语义标注

对于步骤(3.3.2)中输出的类别,从边/结点模型库中取出预先标注的相应类型标签赋给输入的边/结点,从而完成了语义标注过程。

2.根据权利要求1所述的基于语义空间映射的知识图谱管理方法,其特征在于步骤(3.3.2)中,对于均值向量模型时,输出的类别为:

公式的含义是选取使函数取最大值时所对应的i作为Class;

V为待识别的语义向量,Sim(a,b)表示向量a和向量b的相似度。

3.基于权利要求1所述方法的基于语义空间映射的知识图谱管理系统,其特征在于有下述三大模块组成:语义向量构建模块用于执行步骤(1)、语义空间映射模块用于执行步骤(2)、知识图谱管理模块用于执行步骤(3),其中:知识图谱管理模块,包括三个子模块:语义聚类子模块用于执行步骤(3.1)、语义去重子模块用于执行步骤(3.2)、语义标注子模块用于执行步骤(3.3)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410253673.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top