[发明专利]一种基于主题关键词过滤的知识图谱补全方法在审
申请号: | 201910245584.1 | 申请日: | 2019-03-28 |
公开(公告)号: | CN109977234A | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 印桂生;张载熙;王红滨 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 刘冰 |
地址: | 150001 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主题关键词 图谱 过滤 描述文本 冗余 注意力机制 反应实体 描述信息 评分函数 文本过滤 文本内容 语义空间 语义联系 噪音信息 可用性 语义 三元组 集合 | ||
1.一种基于主题关键词过滤的知识图谱补全方法,其特征在于:所述方法包括以下步骤:
步骤1:设定知识图谱G=(E,R,T);其中,E表示知识图谱实体集合,R表示知识图谱中关系集合,T表示待补全的三元组集合,
步骤2:将知识图谱G中不完整的三元组元素构成的集合设定为补全任务集合H,H中的元素分为(h,r,?)和(h,?,t)两种形式;其中,头实体h∈E,关系r∈R,尾实体t∈E;
步骤3:使用词向量工具对待补全的三元组集合T中的h和r进行训练,针对(h,r,?)任务得到h′和r′,针对(h,?,t)任务得到h′和t′;
步骤4:使用词向量工具对三元组集合T中实体的实体描述进行处理,得到主题计算词向量矩阵,包括:头实体描述的词向量矩阵De和尾实体描述的词向量矩阵Dt;
步骤5:通过NMF模型分别对头实体h和尾实体t的实体描述进行处理,获取头实体和尾实体的主题向量sh和st;
步骤6:利用步骤5获取的主题向量sh和st来计算主题语义空间s(sh,st):
其中,向量s为主题语义空间的法向量;
步骤7:获取主题计算词向量矩阵De和Dt的注意力分数,再根据注意力分数选取主题词;并对词向量矩阵De和Dt进行注意力分数的赋值;其中,获取注意力分数的公式为:
式中,表示行乘,表现对实体描述D的词向量矩阵的每一行乘以注意力分数;ai表示实体描述中的第i个单词的注意力分数;
步骤8:使用卷积神经网络对步骤7计算得到的注意力分数矩阵attention(D)抽取特征向量;
步骤9:定义损失函数E(h,r,t)以及目标函数l;其中:
损失函数为:E(h,r,t)=E′s+E′d+Es+Ed;
e=h+r-t;L1和L2都表示范数,L1/L2表示L1或L2的关系;且
Ed表示ed表示所具有的能量,ed=hd+r-td,hd是头实体h实体描述的特征向量,td是尾实体t实体描述的特征向量,由步骤8经卷积神经网络抽取得到
sT表示s的转置;
目标函数为:l=lembed+μltopic;且
S′={(h′,r,t)}∪{(h,r′,t)}∪{(h,r,t′)}
其中,lembed表示考虑词向量的目标函数;ltopic表示考虑主题的目标函数;μ表示超参数,根据训练结果确定;S表示正确三元组的集合;S′表示通过负采用得到的错误三元组的集合;通过随机地替换正确三元组中的实体和关系构成错误的三元组集合;
max(0,γ+E(h,r,t)-E(h′,r′,t′))表示返回两个量中的较大值;γ为超参数,表示正确三元组得分与错误三元组得分之间的间隔距离;
且ltopic的定义如下:
式中,E表示实体集,De表示实体e的实体描述所构成的单词集,ce,ω表示单词w出现在实体e的描述的出现次数;se表示实体e的描述文本的主题向量;θ表示单词w的主题分布;整个训练过程使用随机梯度下降法进行训练;
步骤10:将E或R中全部元素作为缺失实体或关系的候选集合,通过负采样学习错误的三元组集合T′;
步骤11:针对H中的每一个元素,将步骤8得到的正确三元组和步骤10得到的错误三元组输入到损失函数,计算相应的得分;
步骤12:通过训练以调整参数,优化目标函数l以使目标函数值达最小;
步骤13:根据步骤9计算所得的得分对候选实体集合排序并输出选列表;
重复步骤9~步骤11,直到得到输出结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910245584.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种成语知识图谱构建方法及装置
- 下一篇:一种触发词的确定方法和装置