[发明专利]一种融合实体描述及类型的知识图谱表示学习方法有效

申请号：	202010623201.2	申请日：	2020-06-30
公开（公告）号：	CN111753101B	公开（公告）日：	2022-06-07
发明（设计）人：	李弼程;杜文倩;王瑞;张敏	申请（专利权）人：	华侨大学
主分类号：	G06F16/36	分类号：	G06F16/36;G06F40/30;G06K9/62
代理公司：	厦门市首创君合专利事务所有限公司 35204	代理人：	张松亭
地址：	362000 福建省***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合实体描述类型知识图谱表示学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融合实体描述及类型的知识图谱表示学习方法，其特征在于，包括以下步骤：

步骤S1：利用翻译模型获得三元组实体的嵌入，将三元组中的关系当作头实体和尾实体间翻译操作，得到每个三元组实体和关系的数值向量表示；

步骤S2：采用Doc2Vec模型，对实体描述的文本信息进行嵌入；

步骤S3：通过Trans模型得到的实体嵌入，与实体层次类型映射矩阵结合，得到三元组实体类型的嵌入；

步骤S4：将所有的表示向量进行连接，得到最终的三元组实体向量，采用随机梯度下降的方法优化训练模型，进行效果评估；

步骤S1中三元组实体嵌入包括TransE模型和TransR模型获取三元组嵌入，其中，E、R分别代表知识图谱的实体集合和关系集合，具体的获取方法包括：

S11：TransE模型获取三元组嵌入；

S111：随机生成三元组头实体、关系、尾实体的向量表示，分别记为h、r、t；

S112：随机生成负样本数据；对于知识图谱中原本存在的三元组称之为正确三元组(h，r，t)，用实体集合E中的实体随机替换正确三元组中的头实体或尾实体，用关系集合R中的关系随机替换正确三元组中的关系，具体为：

neg＝{(h′，r，t)|h′∈E}∪{(h，r′，t)|r′∈R}∪{(h，r，t′)|t′∈E}

其中，h′是对应于h的负例样本，r′是对应于r的负例样本，t′是对应于t的负例样本；

S113：优化目标函数L(h，r，t)，获得基于TransE模型的三元组实体的嵌入；

其中，γ为超参数，衡量正确三元组和错误三元组的边界；d(h+r，t)＝||h+r-t||，d(h+r，t)为h+r和t的距离度量；pos为知识图谱中的正确三元组；

S12：TransR模型获取三元组嵌入

S121：对于每一个关系，通过变换矩阵Mr与头实体和关系实体向量相乘，将头实体向量h和尾实体向量t映射到关系空间，得到关系空间下的实体向量表示，即：

hr＝hMr，tr＝tMr

S122：然后，生成负采样数据；对于知识图谱中原本存在的三元组称之为正确三元组(h，r，t)，用实体集合E中的实体随机替换正确三元组中的头实体或尾实体，用关系集合R中的关系随机替换正确三元组中的关系；

S123：最后，优化目标函数L(h，r，t)，获得基于TransR模型的三元组实体的嵌入；

其中，γ为超参数，衡量正确三元组和错误三元组的边界，d(h+r，t)＝||hr+r-tr||；d(h+r，t)为hr+r和tr的距离度量，d(h′+r′，t′)相同；pos为知识图谱中的正确三元组；

步骤S3中三元组实体类型的获取方法为：

对于特定的三元组(h，r，t)，头实体映射矩阵的计算式为：

其中，C_rh代表给定的关系r下，头实体的关系类型集合，对于每一个实体类型c，c_i代表实体e属于的第i个类型，为c_i的映射矩阵，α_i为c_i对应的权重；

其中，C_rt为给定关系r下，尾实体的关系类型集合，M_c是类型c的投影矩阵，M_c被定义为：

其中，m是层次类型的层数，表示第i个子类型c⁽ⁱ⁾的映射矩阵；

最后，将M_rh、M_rt与TransE得到的三元组实体嵌入相乘得到实体类型的嵌入；

步骤S4中损失函数为：

其中，γ为超参数，衡量正确三元组和错误三元组的边界，T为正例三元组集合，T’为负例三元组集合，通过随机替换正例三元组的头实体或者尾实体或者关系得到，即：

T′＝{(h′，r，t)|h′∈E}∪{(h，r′，t)|r′∈R}∪{(h，r，t′)|t′∈E}d(h+r，t)＝||h+γ-t||，代表h+r和t的距离度量；

通过步骤S1得到三元组的嵌入e_s，通过步骤S2得到实体描述信息的嵌入e_d，通过步骤S3得到实体类型信息的描述e_t，初始化向量通过组合成最终模型的初始向量，代表拼接操作.采用链接预测和三元组分类进行评估。

2.根据权利要求1所述的融合实体描述及类型的知识图谱表示学习方法，其特征在于，步骤S2中三元组实体描述的获取方法为：

S21：随机生成N维的文档向量x^paragraph-id和N维文档中每个词语的独热形式的词向量xⁱ^{-m，...，i+m}，其中i是指由上下文预测的当前中心词的标号，m是指窗口大小；

S22：对N维的文档向量和词向量进行降维：

v_i-m＝Vx^i-m，v_i-m+1＝Vx^i-m+1，...，v_i+m＝Vx^i+m，v^paragraph-id＝Vx^paragraph-id其中，V是一个n行N列的单位矩阵，n＜N；

S23：通过词向量和文档向量可以得到中心词向量y_i：

其中，U为一个N行n列的单位矩阵，

S24：将中心词向量通过softmax函数进行归一化：

S25：优化目标函数；

S26：使用随机梯度下降的优化方法，最小化目标函数，更新并输出向量，得到实体描述的嵌入。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华侨大学，未经华侨大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010623201.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种糖聚肽金纳米粒子及制备方法和应用
下一篇：基于FPGA的视频接口诊断方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种融合实体描述及类型的知识图谱表示学习方法有效

专利文献下载