[发明专利]一种基于Spark框架的实体统一算法在审
申请号: | 201710631190.0 | 申请日: | 2017-07-28 |
公开(公告)号: | CN107391704A | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 熊安萍;詹妮;蒋溢;祝清意;刘鑫洋 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京同恒源知识产权代理有限公司11275 | 代理人: | 廖曦 |
地址: | 400065 *** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark 框架 实体 统一 算法 | ||
1.一种基于Spark框架的实体统一算法,其特征在于:该方法包含如下步骤
S1:输入待统一的实体集数据;
S2:利用标准分块算法初步将较为相似的实体集数据划分到同一个块中得到实体合集;
S3:利用模式快速扫描算法PRSA(Pattern Rapid Scanning Algorithm)和基于编辑距离的模式匹配算法PMABED(Pattern Matching Algorithm Based on Edit Distance)计算任意实体对的相似度,对步骤S2经过分块后的实体合集进行模式匹配,利用模式抽取算法PEA(Pattern Extract Algorithm),将匹配的即实体合集中相似度大于给定阈值ζ的实体对通过PMABED算法进行回溯合并,得到抽取的模式合集,利用PRSA、PMABED算法对模式合集进行模式匹配,利用PEA算法,将匹配的即模式合集中相似度大于给定阈值ζ的模式通过PMABED算法回溯进行合并,得到共同模式;
S4:得到实体统一的结果。
2.根据权利要求1所述的一种基于Spark框架的实体统一算法,其特征在于:所述步骤S3具体为:
S31:对所述实体集合中实体相同的部分进行统一,不同的部分进行保留,从而形成特定的涵盖具有相似性实体的模式;
S32:将实体间的匹配操作转换成对应的模式之间的匹配操作,利用PRSA算法,得到模式元素不匹配的子模式;
S33:将元素不匹配的子模式通过PMABED算法,得到子模式的编辑距离矩阵;
S34:利用相似度计算公式
得出模式相似度,式中sim(M1,M2)为模式M1和模式M2的相似度,D(M′1,M′2)为子模式M′1和子模式M′2的编辑距离矩阵,|M1|表示模式M1的长度,|M2|表示模式M2的长度;
S35:利用PEA算法,将相似度大于给定阈值ζ的模式通过PMABED算法回溯进行合并,得到共同模式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710631190.0/1.html,转载请声明来源钻瓜专利网。