[发明专利]一种基于知识图谱的词嵌入深度学习方法有效

专利信息
申请号: 201710982103.6 申请日: 2017-10-20
公开(公告)号: CN107729497B 公开(公告)日: 2020-08-14
发明(设计)人: 黄震华 申请(专利权)人: 同济大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/35;G06N3/04;G06N3/08
代理公司: 上海科律专利代理事务所(特殊普通合伙) 31290 代理人: 叶凤
地址: 200092 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种基于知识图谱的词嵌入深度学习方法。训练样本集构造阶段,首先依据语义强度对知识图谱中的实体关系进行划分,然后基于划分后的各实体关系组来产生不同路径长度的训练样本。词嵌入深度学习阶段,通过构造由word2vec编码器、卷积神经网络、门控循环单元网络、softmax分类器以及逻辑回归器等部件组成的三任务深度神经网络结构,然后以前一阶段所产生的训练样本集为输入来迭代优化深度神经网络结构的参数。训练完成后,保留word2vec编码器和卷积神经网络两个部件构成词嵌套编码器。与现有技术相比,本发明具有词嵌入准确度高、泛化能力强以及简单易实现等优点,能够有效应用于大数据分析、电子商务、智能交通、医疗健康以及智能制造等领域。
搜索关键词: 一种 基于 知识 图谱 嵌入 深度 学习方法
【主权项】:
一种基于知识图谱的词嵌入深度学习方法,其特征在于,该方法主要由训练样本集构造和词嵌入深度学习两个阶段组成;第一阶段(训练样本集构造)主要包含两个步骤,即知识图谱实体关系划分和训练样本集生成;在步骤1中,首先以知识图谱为输入,计算其中所有实体的信息度,并将实体按其信息度从大到小或者从小到大排序,进而把排序后的实体平均划分成h个组,每个组为一个信息度类别,其中h的取值由用户指定,并且不小于20;同时,计算知识图谱中所有实体关系的语义强度,并将实体关系按其语义强度从大到小或者从小到大排序,进而把排序后的实体关系平均划分成k个组,每个组为一个语义强度类别,其中k的取值由用户指定,并且不小于10;在步骤2中,针对实体关系的每个分组,通过无放回的方式从中随机选取m个实体关系,其中m的取值由用户指定,并且不小于该分组实体关系数的1/10;接着,对于每个被选取的实体关系,路径长度设定最小值为2而最大值为s,其中s的取值由用户指定,并且在[4,7]之间;然后,对于每个路径长度值l,产生n个正训练样本和a×n个负训练样本,其中n和a的取值由用户指定,并且分别不小于50和4;正负训练样本的产生过程为:通过无放回的方式随机选取与当前实体关系相连的实体关系,直到达到该路径长度值,如果此时第一实体关系的左实体与最后一个实体关系的右实体之间存在直接实体关系,那么就产生1个新的正训练样本<(d,z),(1,f(z),g(d))>,其中d是实体关系组成的路径,包括路径上的所有实体关系和实体,即d=<实体1,实体关系1,实体2,实体关系2,…,实体l+1>,而z为路径第一个实体和最后一个实体间的直接实体关系,f(z)为z的语义强度类别,g(d)为d第一个实体的信息度类别;在该正训练样本的基础上,用a个与z不同的实体关系r1,r2,…,ra,去替换z,从而得到a个新的负训练样本<(d,r1),(0,f(z),g(d))>,<(d,r2),(0,f(z),g(d))>,…,<(d,ra),(0,f(z),g(d))>;第二阶段(词嵌入深度学习)首先构造用于词嵌入学习的深度神经网络模型,主要由word2vec编码器、卷积神经网络(CNN:Convolutional Neural Network)、门控循环单元网络(GRU:Gated Recurrent Units)、softmax分类器以及逻辑回归器部件组成;在词嵌入学习训练过程中,对于路径长度为l的正训练样本<(d,z),(1,f(z),g(d))>或负训练样本<(d,z),(‑1,f(z),g(d))>,该训练样本含有l+1个实体和l个实体关系,因此需要l+1个GRU部件、2l+2个word2vec编码器部件、2l+2个CNN部件、1个逻辑回归器部件以及2个softmax多分类器部件,其中,第i个实体和第i个实体关系(1≤i≤l)分别通过各自的word2vec编码器部件生成一维输入向量,并分别经过各自的CNN部件来生成一维卷积向量,然后,第i个GRU部件接收这两个一维卷积向量以及前一个GRU生成的一维循环向量,并输出其相应的一维循环向量,而第l+1个实体由于后面没有再连接实体关系,将经由word2vec编码器部件和CNN部件生成的一维卷积向量和一个一维全零向量,连同第l个GRU生成的一维循环向量一起作为输入输进第l+1个GRU部件来最终生成一维路径向量;另一方面,实体1与实体l+1间的直接实体关系z通过word2vec编码器部件和CNN部件来生成一维卷积向量;此外,所有的word2vec编码器部件之间、CNN部件之间和GRU部件之间的参数均是共享的;在此基础上,构造三个训练任务:1)任务1为一维路径向量与z对应一维卷积向量间的相似度训练,如果输入是正训练样本,那么最大化其相似度的逻辑回归值,反之最小化其相似度的逻辑回归值;2)任务2为实体关系z的语义强度分类训练,假设z的语义强度类别为c,那么最大化softmax多分类器的c类别概率值;3)任务3为实体1的信息度分类训练,假设实体1的信息度类别为b,那么最大化softmax多分类器的b类别概率值;通过联合这三个训练任务来构造目标损失函数,并通过随机优化算法来迭代优化模型的参数,直到参数收敛为止;当模型训练完成后,从该模型中抽取出实体关系z所对应的word2vec编码器部件和CNN部件,从而构成词嵌套编码器。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710982103.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top