[发明专利]一种基于知识图谱的词嵌入深度学习方法有效
申请号: | 201710982103.6 | 申请日: | 2017-10-20 |
公开(公告)号: | CN107729497B | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 黄震华 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 嵌入 深度 学习方法 | ||
1.一种基于知识图谱的词嵌入深度学习方法,其特征在于,该方法由训练样本集构造和词嵌入深度学习两个阶段组成;
第一阶段 训练样本集构造包含两个步骤,即知识图谱实体关系划分和训练样本集生成;
在步骤1中,首先以知识图谱为输入,计算其中所有实体的信息度,并将实体按其信息度从大到小或者从小到大排序,进而把排序后的实体平均划分成h个组,每个组为一个信息度类别,其中h的取值由用户指定,并且不小于20;同时,计算知识图谱中所有实体关系的语义强度,并将实体关系按其语义强度从大到小或者从小到大排序,进而把排序后的实体关系平均划分成k个组,每个组为一个语义强度类别,其中k的取值由用户指定,并且不小于10;
对于知识图谱G中的任何一个实体e,它的信息度计算公式为:
其中gE为G中不同的实体类型个数,num(e)为e在G中出现的次数;当所有实体的信息度均计算完毕之后,将实体按其信息度从小到大排序;
对于知识图谱G中的任何一个实体关系r,它的语义强度计算公式为:
其中gR为G中不同的实体关系类型个数,e1和e2分别是实体关系r的左实体和右实体,num(e1)、num(e2)和num(r)分别为实体e1和e2以及实体关系r在G中出现的次数,而num(r,e2)为三元组事实*,r,e2在G中出现的次数,*为通配符;
在步骤2中,针对实体关系的每个分组,通过无放回的方式从中随机选取m个实体关系,其中m的取值由用户指定,并且不小于该分组实体关系数的1/10;接着,对于每个被选取的实体关系,路径长度设定最小值为2而最大值为s,其中s的取值由用户指定,并且在[4,7]之间;然后,对于每个路径长度值l,产生n个正训练样本和a×n个负训练样本,其中n和a的取值由用户指定,并且分别不小于50和4;正负训练样本的产生过程为:通过无放回的方式随机选取与当前实体关系相连的实体关系,直到达到该路径长度值,如果此时第一实体关系的左实体与最后一个实体关系的右实体之间存在直接实体关系,那么就产生1个新的正训练样本(d,z),(1,f(z),g(d)),其中d是实体关系组成的路径,包括路径上的所有实体关系和实体,即d=实体1,实体关系1,实体2,实体关系2,…,实体l+1,而z为路径第一个实体和最后一个实体间的直接实体关系,f(z)为z的语义强度类别,g(d)为d第一个实体的信息度类别;在该正训练样本的基础上,用a个与z不同的实体关系r1,r2,…,ra,去替换z,从而得到a个新的负训练样本(d,r1),(0,f(z),g(d)),(d,r2),(0,f(z),g(d)),…,(d,ra),(0,f(z),g(d));
第二阶段 词嵌入深度学习 首先构造用于词嵌入学习的深度神经网络模型,由word2vec编码器、卷积神经网络(CNN:Convolutional Neural Network)、门控循环单元网络(GRU:Gated Recurrent Units)、softmax分类器以及逻辑回归器部件组成;
在词嵌入学习训练过程中,对于路径长度为l的正训练样本(d,z),(1,f(z),g(d))或负训练样本(d,z),(-1,f(z),g(d)),该训练样本含有l+1个实体和l个实体关系,因此需要l+1个GRU部件、2l+2个word2vec 编码器部件、2l+2个CNN部件、1个逻辑回归器部件以及2个softmax多分类器部件,其中,第i个实体和第i个实体关系1≤i≤l分别通过各自的word2vec编码器部件生成一维输入向量,并分别经过各自的CNN部件来生成一维卷积向量,然后,第i个GRU部件接收这两个一维卷积向量以及前一个GRU生成的一维循环向量,并输出其相应的一维循环向量,而第l+1个实体由于后面没有再连接实体关系,将经由word2vec编码器部件和CNN部件生成的一维卷积向量和一个一维全零向量,连同第l个GRU生成的一维循环向量一起作为输入输进第l+1个GRU部件来最终生成一维路径向量;另一方面,实体1与实体l+1间的直接实体关系z通过word2vec编码器部件和CNN部件来生成一维卷积向量;此外,所有的word2vec编码器部件之间、CNN部件之间和GRU部件之间的参数均是共享的;
在此基础上,构造三个训练任务:1)任务1为一维路径向量与z对应一维卷积向量间的相似度训练,如果输入是正训练样本,那么最大化其相似度的逻辑回归值,反之最小化其相似度的逻辑回归值;2)任务2为实体关系z的语义强度分类训练,假设z的语义强度类别为c,那么最大化softmax多分类器的c类别概率值;3)任务3为实体1的信息度分类训练,假设实体1的信息度类别为b,那么最大化softmax多分类器的b类别概率值;
通过联合这三个训练任务来构造目标损失函数,并通过随机优化算法来迭代优化模型的参数,直到参数收敛为止;
当模型训练完成后,从该模型中抽取出实体关系z所对应的word2vec编码器部件和CNN部件,从而构成词嵌套编码器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710982103.6/1.html,转载请声明来源钻瓜专利网。