[发明专利]一种基于多域实体索引的实体链接方法有效
申请号: | 201710144495.9 | 申请日: | 2017-03-10 |
公开(公告)号: | CN106934020B | 公开(公告)日: | 2019-04-30 |
发明(设计)人: | 李慧颖;师京;徐泽建;赵畅 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/36 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 211189 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实体 索引 链接 方法 | ||
1.一种基于多域实体索引的实体链接方法,其特征在于:包括如下步骤:
(1)对知识库中每个实体建立多域索引
对每个实体收集其属性值对及关系对,将实体的属性及关系划分为名字域、属性域、出关系域和入关系域,分别在各个域为每个实体建立索引;名字域包括实体的name属性、label属性和title属性,将该些属性的名称及对应的值作为名字域的值进行索引;属性域包括实体除名字域包含的属性以外的所有属性,将该些属性的名称及对应的值作为属性域的值进行索引;出关系域收集本实体到其他实体的关系,将该关系的名称及其关联实体的类型和name属性值作为出关系域的值进行索引;入关系域收集其他实体到本实体的关系,将该关系的名称及其关联实体的类型和name属性值作为入关系域的值进行索引;
(2)产生候选实体
将待链接的实体指称m作为查询关键词,在知识库的名字域内进行搜索,得到实体指称m对应的候选实体集合Em={ei},ei表示第i个候选实体,i=1,2,…,N,N为候选实体的总数;同时,对候选实体ei名字域的值和实体指称m进行文本相似度得分LS(m,ei)评价,根据文本相似度得分对所有候选实体进行排序;
(3)将候选实体ei属性域、入关系域和出关系域的值中的单词转化为一个特征向量{prop.Ti1,prop.Ti2,prop.Ti3},prop.Ti1表示候选实体ei属性域的值中包含的所有单词,prop.Ti2表示候选实体ei入关系域的值中包含的所有单词,prop.Ti3表示候选实体ei出关系域的值中包含的所有单词;同时收集实体指称m所在句的所有单词m.T作为该实体指称的特征向量,计算{prop.Ti1,prop.Ti2,prop.Ti3}和m.T的余弦相似度作为候选实体ei与实体指称m的上下文相似度得分CS(m,ei);
在候选实体ei的入关系域中,统计知识库内其他实体到候选实体ei的入关系次数num(ei),以得到候选实体ei的流行度得分PS(ei);prop.Ti1、prop.Ti2、prop.Ti3和m.T均使用标准向量空间模型表示;
(4)将候选实体ei使用由文本相似度得分LS(m,ei)、上下文相似度得分CS(m,ei)和流行度得分PS(ei)构成的特征向量表示Xm(ei)={LS(m,ei),CS(m,ei),PS(ei)},利用支持向量机模型进行权重向量W训练,S(m,ei)=WXm(ei),根据S(m,ei)对所有候选实体进行排序,最终将实体指称链接到得分最高的候选实体上,即:
其中,
所述步骤(3)中,候选实体ei与实体指称m的上下文相似度得分计算过程为:
首先,分别计算prop.Ti1、prop.Ti2和prop.Ti3与m.T之间的余弦相似度:
然后,对三个余弦相似度进行加和:
将加和后的结果CS(m,ei)作为候选实体ei与实体指称m的上下文相似度得分。
2.根据权利要求1所述的基于多域实体索引的实体链接方法,其特征在于:所述步骤(3)中,实体指称m所在句的所有单词m.T包括该所有单词在词典WordNet中的同义词以及在语义网络ConceptNet中的相关词。
3.根据权利要求1所述的基于多域实体索引的实体链接方法,其特征在于:所述步骤(3)中,候选实体ei的流行度PS(ei)计算过程为:
其中,num(ei)为在候选实体ei的入关系域中,在知识库内统计到的其他实体到候选实体ei的入关系次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710144495.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:访问网站的方法和装置
- 下一篇:模块化封装报表的处理方法和系统