[发明专利]一种基于多域实体索引的实体链接方法有效
申请号: | 201710144495.9 | 申请日: | 2017-03-10 |
公开(公告)号: | CN106934020B | 公开(公告)日: | 2019-04-30 |
发明(设计)人: | 李慧颖;师京;徐泽建;赵畅 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/36 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 211189 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于多域实体索引的实体链接方法,包含两个主要步骤:(1)对知识库中实体建立多域索引。(2)基于多域索引筛选候选实体及利用上下文相似度得分及流行度得分对候选实体重新排序并将实体指称链接到得分最高实体上。本发明不需基于别名词典进行候选实体的查找,而是针对知识库实体的不同属性(关系)分域建立索引,通过对名字域搜索得到与实体指称匹配的候选实体;对于初步筛选出的候选实体,利用其他域索引的信息计算候选实体的上下文得分和流行度得分,对候选实体重新排序并将实体指称链接到得分最高的候选实体上。 | ||
搜索关键词: | 一种 基于 实体 索引 链接 方法 | ||
【主权项】:
1.一种基于多域实体索引的实体链接方法,其特征在于:包括如下步骤:(1)对知识库中每个实体建立多域索引对每个实体收集其属性值对及关系对,将实体的属性及关系划分为名字域、属性域、出关系域和入关系域,分别在各个域为每个实体建立索引;名字域包括实体的name属性、label属性和title属性,将该些属性的名称及对应的值作为名字域的值进行索引;属性域包括实体除名字域包含的属性以外的所有属性,将该些属性的名称及对应的值作为属性域的值进行索引;出关系域收集本实体到其他实体的关系,将该关系的名称及其关联实体的类型和name属性值作为出关系域的值进行索引;入关系域收集其他实体到本实体的关系,将该关系的名称及其关联实体的类型和name属性值作为入关系域的值进行索引;(2)产生候选实体将待链接的实体指称m作为查询关键词,在知识库的名字域内进行搜索,得到实体指称m对应的候选实体集合Em={ei},ei表示第i个候选实体,i=1,2,…,N,N为候选实体的总数;同时,对候选实体ei名字域的值和实体指称m进行文本相似度得分LS(m,ei)评价,根据文本相似度得分对所有候选实体进行排序;(3)将候选实体ei属性域、入关系域和出关系域的值中的单词转化为一个特征向量{prop.Ti1,prop.Ti2,prop.Ti3},prop.Ti1表示候选实体ei属性域的值中包含的所有单词,prop.Ti2表示候选实体ei入关系域的值中包含的所有单词,prop.Ti3表示候选实体ei出关系域的值中包含的所有单词;同时收集实体指称m所在句的所有单词m.T作为该实体指称的特征向量,计算{prop.Ti1,prop.Ti2,prop.Ti3}和m.T的余弦相似度作为候选实体ei与实体指称m的上下文相似度得分CS(m,ei);在候选实体ei的入关系域中,统计知识库内其他实体到候选实体ei的入关系次数num(ei),以得到候选实体ei的流行度得分PS(ei);prop.Ti1、prop.Ti2、prop.Ti3和m.T均使用标准向量空间模型表示;(4)将候选实体ei使用由文本相似度得分LS(m,ei)、上下文相似度得分CS(m,ei)和流行度得分PS(ei)构成的特征向量表示Xm(ei)={LS(m,ei),CS(m,ei),PS(ei)},利用支持向量机模型进行权重向量W训练,S(m,ei)=WXm(ei),根据S(m,ei)对所有候选实体进行排序,最终将实体指称链接到得分最高的候选实体上,即:其中,所述步骤(3)中,候选实体ei与实体指称m的上下文相似度得分计算过程为:首先,分别计算prop.Ti1、prop.Ti2和prop.Ti3与m.T之间的余弦相似度:然后,对三个余弦相似度进行加和:将加和后的结果CS(m,ei)作为候选实体ei与实体指称m的上下文相似度得分。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710144495.9/,转载请声明来源钻瓜专利网。
- 上一篇:访问网站的方法和装置
- 下一篇:模块化封装报表的处理方法和系统