[发明专利]面向Web表格的成对实体联合消歧方法在审
申请号: | 202110720148.2 | 申请日: | 2021-06-28 |
公开(公告)号: | CN113361283A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 吴天星;李林;漆桂林 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/295;G06K9/62 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 许小莉 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 web 表格 成对 实体 联合 方法 | ||
1.面向Web表格的成对实体联合消歧方法,其特征在于,该方法包括以下步骤:
1)将Web表格中同行同列的实体提及两两组合生成所有的实体提及二元组;
2)计算所有实体提及二元组进行链接时的置信度,并将置信度最高的一对实体提及与各自实体进行链接,同时删除这对实体提及的其他候选实体;
3)更新表格中不同实体提及之间的置信度值。
4)迭代所述步骤2)和3),直到表格中所有实体提及完成链接。
2.根据权利要求1所述的面向Web表格的成对实体联合消歧方法,其特征在于,所述步骤2)中,按照如下方式计算置信度:
2-a)置信度计算引入链接过程中列语义一致性的变化信息,列语义一致性定义为方差向量的负均值,列语义一致性CSC通过以下方式进行计算:
CSC=-mean(var([e1,e2...,en]))
其中e1,e2,...,en表示一列链接实体的向量表示,var用来得到方差向量,mean通过对方差向量中的值求平均得到代表列语义一致性的标量值;
2-b)置信度计算引入链接过程中行语义一致性的变化信息,行语义一致性定义为关系方差向量的负均值,方差越小,关系向量负均值越大,不同行具备的关系越接近,行语义越一致,行语义一致性RSC通过以下方式进行计算:
r=enon-subject-esubject
RSC=-mean(var([r1,r2,...,rn]))
其中esubject表示主键列中的链接实体,enon-subject代表了非主键列中的链接实体,r表示关系向量,var用来得到方差向量,mean通过对方差向量中的值求平均得到代表行语义一致性的标量值,r1,r2,...,rn表示不同行链接实体之间构成的关系向量表示;
2-c)置信度计算引入链接过程中表格内实体一致性信息,链接实体一致性EES通过实体向量表示的余弦相似度进行计算:
EES(e1,e2)=cosine(e1,e2)
其中e1,e2指代成对实体联合消歧过程中两个实体提及对应的实体向量表示。
2-d)置信度计算引入实体提及和候选实体相似度信息,实体提及与候选实体的相似度MES通过实体提及上下文向量表示和候选实体上下文向量表示的余弦相似度和先验概率结合进行计算,实体提及的上下文由同行同列中所有单词的词袋构成,候选实体上下文通过知识库中实体文本描述中所有单词的词袋构成,实体提及上下文向量表示由其词袋中所有单词向量的平均值得到,候选实体上下文向量表示由其词袋中所有单词向量的平均值得到,具体如下所示:
MES(m,e)=cosine(mcontext,econtext)+P(e|m)
其中,mcontext表示实体提及m的上下文向量表示,econtext表示候选实体e的上下文向量表示,P(e|m)表示m链接到e的概率;
2-c)置信度计算对多种信息的组合方法,给定一对实体提及mi,mj,以及它们对应的候选实体集合CSi,CSj,将置信度定义为Γ(mi,mj),包含两部分内容,一部分内容为成对实体链接涉及元素之间的相似度,另一部分为链接操作带来的行/列语义一致性变化,超参数β>0,用来控制语义一致性的影响程度比重,具体如下所示:
相似度计算包括了三部分内容,分别为两个实体提及与各自候选实体之间的相似度,以及候选实体之间的相关性,和分别为候选实体集合CSi和CSj中的候选实体;MES用来计算实体提及和候选实体之间的相似度;EES用来衡量链接实体一致性,ΔCSCN和ΔRSCN表示对实体提及mi,mj完成链接操作后行、列语义一致性变化值的正则化结果,正则化操作如下所述:
Norm(d)=σ(d)-0.5
其中d为语义一致性的变化值,若d>0则代表语义一致性增加,进而提高置信度值。公式中的σ为logistic sigmoid函数,正则化操作使得Norm(d)∈(-0.5,0.5)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110720148.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种缓存系统接入系统
- 下一篇:智能家居数据控制方法、装置、设备及存储介质