[发明专利]一种获取知识图谱向量化表示的方法以及装置有效
申请号: | 201610197184.4 | 申请日: | 2016-03-31 |
公开(公告)号: | CN105824802B | 公开(公告)日: | 2018-10-30 |
发明(设计)人: | 李涓子;王志刚 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种获取知识图谱向量化表示的方法以及装置。其中,所述方法包括:根据待处理的知识图谱,使用实体标注工具标注给定辅助文本语料中属于知识图谱中存在的实体,得到实体标注的文本语料;基于所述文本语料,构建由词和实体组成的共现网络,以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌入表示;根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表示分别进行建模,得到所述知识图谱的嵌入表示模型;使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图谱中实体和关系的嵌入表示。本发明不仅能提高关系的表示能力,而且还能有效地解决知识图谱稀疏性带来的表示效果不足的问题。 | ||
搜索关键词: | 一种 获取 知识 图谱 量化 表示 方法 以及 装置 | ||
【主权项】:
1.一种获取知识图谱向量化表示的方法,其特征在于,所述方法包括:根据待处理的知识图谱,使用实体标注工具标注给定辅助文本语料中属于知识图谱中存在的实体,得到实体标注的文本语料;基于所述文本语料,构建由词和实体组成的共现网络,以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌入表示;根据所述文本上下文嵌入表示对所述知识图谱中实体和关系的嵌入表示分别进行建模,得到所述知识图谱的嵌入表示模型;使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图谱中实体和关系的嵌入表示;所述基于所述文本语料,构建由词和实体组成的共现网络,以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌入表示,包括:根据所述共现网络分别定义一元文本上下文和二元文本上下文;以所述文本语料为输入,采用Skip‑gram Word2Vec进行词嵌入表示学习,得到所述共现网络中任意一点的词向量嵌入表示;根据所述一元文本上下文和所述词向量嵌入表示定义一元文本上下文嵌入表示;根据所述二元文本上下文和所述词向量嵌入表示定义二元文本上下文嵌入表示;对于共现网络
中任意一点xi,该点的一元文本上下文n(xi)定义为其在共现网络
中关联程度较高的邻居节点:n(xi)={xj|yij>θ},其中,θ表示共现频率的阈值,yij表示点xi和点xj之间的共现频率;该点的一元文本上下文嵌入表示N(xi)定义为n(xi)中词向量嵌入表示的加权平均向量:
对于共现网络
中任意两点xi和xj,该两点的二元文本上下文n(xi,xj)定义为该两点xi和xj在共现网络
中均具有较高关联程度的公共邻居节点:n(xi,xj)={xk|xk∈n(xi)∩n(xj)};该两点的二元文本上下文嵌入表示N(xi,xj)定义为n(xi,xj)中词向量嵌入表示的加权平均向量:
其中公共邻居节点xk的权重定义为yik和yjk的最小值,
为所有权重之和。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610197184.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种翻译终端和翻译方法
- 下一篇:一种信息处理方法、设备和终端设备