[发明专利]一种基于马尔可夫聚类的实体间关系消解方法有效
申请号: | 201610187149.4 | 申请日: | 2016-03-29 |
公开(公告)号: | CN105893481B | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 赵志云;刘春阳;庞琳;李雄;张旭;王萌;陈新蕾 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 席小东 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于马尔可夫聚类的实体间关系消解方法,包括:计算K个实体中任意两个实体之间的语义相似度;根据实体间的语义相似度构造赋权图G;构造状态转移矩阵M;在状态转移矩阵M上执行马尔科夫聚类算法,得到多个关系簇;其中,每个簇代表一系列语义相近似的实体。本发明提供的基于马尔可夫聚类的实体间关系消解方法具有以下优点:提出了融合词法和语义的相似度计算方法,然后给出了基于马尔科夫图聚类的关系聚类方法。该方法与层次聚类方法相比,聚类纯度指标有了一定提高,还具有计算过程简单快速的优点。 | ||
搜索关键词: | 一种 基于 马尔可夫聚类 实体 关系 消解 方法 | ||
【主权项】:
1.一种基于马尔可夫聚类的实体间关系消解方法,其特征在于,包括以下步骤:步骤1,当需要对K个实体进行关系消解时,将K个实体分别记为P1、P2…PK;计算K个实体中任意两个实体之间的语义相似度;步骤2,根据实体间的语义相似度构造赋权图G;赋权图G的构造方法为:步骤201,预设置相似度过滤系数θ;步骤202,实体P1、P2…PK作为聚类元素,形成节点;步骤203,将任意两个节点用边相连,形成初始赋权图G0;步骤204,对于任意的一条边,记为La,假设其为实体Pi和实体Pj之间的边,均进行以下处理:边La的权重即为步骤1计算得到的实体Pi和实体Pj之间的语义相似度,记为Pij;判断语义相似度Pij的值是否小于相似度过滤系数θ,如果不小于,则保留边La;如果小于,则去除边La;步骤205,由此形成最终的赋权图G;步骤3,根据步骤205形成的赋权图G,构造状态转移矩阵M;其中,状态转移矩阵M的维数为赋权图G的节点数,即:状态转移矩阵M为K行K列的矩阵;状态转移矩阵中任意一个元素Quv,u为行数,v为列数,元素Quv的值采用以下规则计算得到:如果u等于v时,元素Quv的值统一等于1;如果u不等于v时,判断赋权图G中实体Pi和实体Pj之间是否存在边,如果存在,则令元素Quv的值等于实体Pi和实体Pj之间边的权重;如果不存在,则令元素Quv的值等于0;步骤4,在状态转移矩阵M上执行马尔科夫聚类算法,得到多个关系簇;其中,每个簇代表一系列语义相近似的实体;其中,步骤1具体包括以下步骤:步骤101,对于需要计算语义相似度的任意两个实体,分别记为实体Pi和实体Pj;首先判断实体Pi和实体Pj是否均属于《同义词词林》中的基本词语,如果是,则执行步骤102;否则,执行步骤103;步骤102,实体Pi和实体Pj在《同义词词林》中均存在对应的编码,采用义项相似度计算方式计算实体Pi和实体Pj之间的语义相似度,即:步骤1021,《同义词词林》中收录的每个词语对应一个5级编码,共8位,其中,第1级用大写英文字母表示;第2级用小写英文字母表示;第3级用二位十进制整数表示;第4级用大写英文字母表示;第5级用二位十进制整数表示;第8位为标记位,标记位采用三种标记符,分别是“=”、“#”、“@”,其中“=”代表相等、同义;“#”代表不等、同类,属于相关词语;“@”则表示独立,在词典中既没有相关词,也没有同义词;步骤1022,读取到实体Pi的编码和实体Pj的编码,判断是否属于第一种情况,其中,第一种情况为:如果实体Pi的编码和实体Pj的编码的第1位到第7位完全相同,第8位均为“#”时,代表实体Pi和实体Pj是同类词语,但意思不相同,此时,令实体Pi的编码和实体Pj的语义相似度为0.5;如果不属于第一种情况,继续判断是否属于第二种情况,其中,第二种情况为:如果实体Pi的编码的第8位为“@”,和/或如果实体Pj的编码的第8位为“@”,此时,令实体Pi的编码和实体Pj的语义相似度为0;如果也不属于第二种情况,则继续判断是否属于第三种情况;其中,第三种情况为:实体Pi的编码和实体Pj的编码的第1位到第7位不完全一致,只有部分相同,则通过以下公式计算实体Pi和实体Pj的语义相似度:sim(Pi,Pj)=0.2×(L‑1); 公式1其中,sim(Pi,Pj)代表实体Pi和实体Pj的语义相似度;L的取值为[1,5],代表实体Pi的编码和实体Pj的编码在第L层开始不同;步骤103,利用分词工具分别对实体Pi和实体Pj进行分词并去除虚词,得到实体Pi分词后的词序列为Seq1=a1a2a3......ax,得到实体Pj分词后的词序列为Seq2=b1b2b3......by;其中,实体Pi和实体Pj分词后所得到的词序列中的各个词属于《同义词词林》中的基本词语;判断x是否等于y,如果等于,则执行步骤104;否则,执行步骤105;步骤104,按公式2计算实体Pi和实体Pj的语义相似度:其中,sim(af,bf)按公式1计算;步骤105,设x小于y,则从Seq2的y个分词中选择出x个分词,假设共有h种选择方式,由此得到h个序列2子序列,对于每1个序列2子序列,均采用公式2计算Seq1与序列2子序列之间的语义相似度,由此共得到h个语义相似度;h个语义相似度中的最大值即为最终计算得到的实体Pi和实体Pj的语义相似度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610187149.4/,转载请声明来源钻瓜专利网。
- 上一篇:图片展示装置和方法
- 下一篇:一种资源获取方法与装置