[发明专利]一种基于改进WMD算法的实体对齐方法有效
申请号: | 201910027346.3 | 申请日: | 2019-01-11 |
公开(公告)号: | CN109902144B | 公开(公告)日: | 2020-01-31 |
发明(设计)人: | 姜明;闻涛;张旻;汤景凡;滕海滨;何杰成 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36 |
代理公司: | 33240 杭州君度专利代理事务所(特殊普通合伙) | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 属性相似度 摘要文本 计算实体 对齐 相似度 分词 权重 算法 编辑距离算法 相似度计算 实数向量 算法计算 综合判断 不一致 词向量 停用词 低维 消岐 改进 转化 | ||
1.一种基于改进WMD算法的实体对齐方法,其特征在于包括如下步骤:
步骤(1)计算百科实体之间的属性相似度;
步骤(2)计算百科实体间的摘要文本相似度;
步骤(3)通过属性相似度和摘要文本相似度综合判断实体是否能够消岐,
步骤1所述的计算百科实体之间的属性相似度,过程如下:
1.1统一属性的名称,采用人工构建属性映射规则的方法,通过人工对比校验,构建多个类别的属性名映射表,进而规范属性名称不一致的情况;
1.2统一属性的属性值,通过统计分析,建立属性值归一化规则,对属性值进行归一化;
1.3对于实体Ea,Eb,其属性名称集合分别为:Propertya={pa1,pa2,...,pam},Propertyb={pb1,pb2,...,pbn};属性值集合分别为Valuea={va1,va2,...,vam},Valueb={vb1,vb2,...,vbn};
1.4对于公有属性Pi∈CommonPropertty(Ea,Eb),对应着相同属性名称的Pam∈Propertya,Pbn∈Propertyb;其中Pam的属性值为Vam,Pbn的属性值为Vbn,则百科实体的属性相似度计算公式为:
其中:
T=|Propretya∩Propretyb|;
T为公共属性交集中的元素个数,ED(Vax,Vby)为实体属性值的编辑距离,max{len(Vax),len(Vby)}为属性值的最大字符长度,
步骤2所述的计算百科实体之间摘要文本相似度的步骤如下:
2.1采用TextRank算法对百科实体的摘要文本计算词权重,其单个词权重WS(Vi)计算公式为:
其中,In(Vi)代表指向该词Vi的集合,Out(Vj)代表Vi指向的词集合,d为阻尼系数,设置为0.85;sij为词Vi到Vj边的权重,sjk为词Vj到Vk边的权重;
2.2通过预训练好的word2vec模型,将分词后的百科实体的摘要文本转化为词的分布式低维实数向量表示,将一个词的语义转化为另外一个词的语义的代价定义为Wordtravel cost,词Vi,Vj之间的word travel cost定义为:
C(i,j)=||xi-xj||2
其中,xi,xj分别对应词Vi,Vj所对应的Word2Vec词向量;
2.3在计算文档D0,D1的距离时,WMD会尝试寻找最小的代价将D0中的所有单词转化为D1中的单词;D0中的词Vi的权重为WS(Vi),D1中的词Vj的权重为WS(Vj),且Vi,Vj∈{V0,V1...Vn};设T∈Rn×n为低维系数矩阵,其中Tij为词语Vi到词语Vj的转移量,则WMD的优化表达式为:
其中:
2.4通过以上计算,百科实体的摘要文本相似度计算公式为:
2.根据权利要求1所述的一种基于改进WMD算法的实体对齐方法,其特征在于步骤3通过属性相似度和摘要文本相似度综合判断的步骤如下包括:
3.1将计算得出的属性相似度和预设定的实体属性相似度上限阈值ν和下限阈值ω进行比较,如大于等于上限阈值ν,则对齐实体,输出新的实体;若相似度在在上限阈值ν和下限阈值ω之间或等于下限阈值ω,则转向步骤3.2;否则认为该实体对之间不需要对齐工作;
3.2将摘要文本相似度和预设定的摘要文本相似度阈值λ进行比较,若大于等于阈值λ,则对齐实体,输出新的实体;否则判定这两个实体无关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910027346.3/1.html,转载请声明来源钻瓜专利网。