[发明专利]一种基于语义空间映射的知识图谱管理方法和系统有效
申请号: | 201410253673.8 | 申请日: | 2014-06-10 |
公开(公告)号: | CN104035917B | 公开(公告)日: | 2017-07-07 |
发明(设计)人: | 王晓平;肖仰华;汪卫 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 上海正旦专利代理有限公司31200 | 代理人: | 陆飞,盛志范 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于文本语义处理、语义网技术领域,具体为一种基于语义空间映射的知识图谱管理方法和系统。本发明方法包括语义向量构建、语义空间映射、知识图谱管理;知识图谱管理又包括三个分为语义聚类、语义去重、语义标注。对于知识图谱的边/结点,首先将描述其的文本单元向语义空间投影,并通过向量累积获得其在语义空间上的向量表示;在此基础上,实现知识图谱的多项管理任务;系统包括对应的语义向量构建、语义空间映射、知识图谱管理3个模块。本发明克服了传统知识图谱管理方法在进行语义比较时对词语变形、同义词变化、语法形式变化等因素敏感的缺点,并且向量累积的方式使其能轻松应对词语个数的不同,易于实现进一步的诸如语义聚类、语义去重、语义标注等知识图谱管理任务。 | ||
搜索关键词: | 一种 基于 语义 空间 映射 知识 图谱 管理 方法 系统 | ||
【主权项】:
一种基于语义空间映射的知识图谱管理方法,其特征在于具体步骤分为:语义向量构建、语义空间映射、知识图谱管理;其中:(1)语义向量构建的具体步骤如下:基于语料库构建语义向量库,使得文本单元映射到语义空间上的向量;构建语义向量的训练数据采用维基百科知识库作为用Word2Vec方法训练语义向量的语料库,并用训练结果构建语义向量库;(2)语义空间映射将知识图谱中表示边结点的文本映射为语义空间中的向量,具体步骤如下:(2.1)对知识图谱中的边/结点中的词语进行过滤处理,去除其中无语义的停用词;(2.2)对经步骤(2.1)操作处理后保留的每一个词语,从已经构建好的语义向量库中获取其在语义空间中的投影向量,然后将这些词语对应的语义向量进行累加,进而得到表征该边/结点的总体语义向量;(3)知识图谱管理分为三个分步骤:语义聚类、语义去重、语义标注;(3.1)语义聚类的具体步骤如下:对待聚类的边/结点集合,首先基于构建好的语义向量库进行语义空间映射,然后进一步地对获得的这些语义向量进行聚类;(3.2)语义去重的具体步骤如下:对于语义聚类的结果,对被聚在同一类中的边/结点集合,通过计算典型边/典型结点取代原先的类集合元素来降低语义信息的冗余性,其选取依据是:公式的含义是选取使函数取最大值时所对应的k作为Typical,Typical是指选取的典型边或者典型结点;这里, Vk是待合并集合中对应第k个关系/实体的语义向量,V是待合并集合中所有关系/实体的累积语义向量,Sim(a,b)表示向量a和向量b的相似度;(3.3)语义标注具体步骤如下:(3.3.1)边/结点模型构建:对于聚类后的边/结点,基于其对应的语义向量集合构建边/结点模型;同时,手工为每一类关系/实体标定出其对应的类型标签;为对应i类边/结点的均值向量,i∈{1,2,…,N},N为边/结点模型库中的模型数目;其中,mi,j表示第i类中第j个向量,ni为该类中的样本个数,为均值向量;在模型构建完成后,即将边/结点模型添加进边/结点模型库;(3.3.2)边/结点识别 对于待查询的边/结点,在按语义空间映射所述步骤获得边/结点语义向量表征后,将该向量与关系模型库中的边/结点模型依次进行比较,其中,对均值向量模型、高斯模型,可直接比较向量间相似度或者是计算输入向量属于模型的概率值,遍历后取最高值对应的类别作为输出;对人工神经网络、支持向量机,则是直接输出对应的类别;(3.3.3)边/结点语义标注对于步骤(3.3.2)中输出的类别,从边/结点模型库中取出预先标注的相应类型标签赋给输入的边/结点,从而完成了语义标注过程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410253673.8/,转载请声明来源钻瓜专利网。