[发明专利]一种基于Spark框架的实体统一算法在审
申请号: | 201710631190.0 | 申请日: | 2017-07-28 |
公开(公告)号: | CN107391704A | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 熊安萍;詹妮;蒋溢;祝清意;刘鑫洋 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京同恒源知识产权代理有限公司11275 | 代理人: | 廖曦 |
地址: | 400065 *** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于Spark框架的实体统一算法,属于大数据融合技术领域,该方法包含如下步骤S1输入待统一的实体集数据;S2利用标准分块算法初步将较为相似的实体集数据划分到同一个块中得到实体合集;S3利用模式快速扫描算法PRSA和模式匹配算法PMABED计算任意实体对的相似度,对步骤S2经过分块后的实体合集进行模式匹配,利用模式抽取算法PEA,将匹配的实体对通过PMABED算法进行回溯合并,得到抽取的模式合集,利用PRSA、PMABED算法对模式合集进行模式匹配,利用PEA算法,将匹配的模式通过PMABED算法回溯进行合并,得到共同模式;S4得到实体统一的结果。本发明提高了实体统一计算效率,能够从大规模数据中更快速地筛选出有价值的数据。 | ||
搜索关键词: | 一种 基于 spark 框架 实体 统一 算法 | ||
【主权项】:
一种基于Spark框架的实体统一算法,其特征在于:该方法包含如下步骤S1:输入待统一的实体集数据;S2:利用标准分块算法初步将较为相似的实体集数据划分到同一个块中得到实体合集;S3:利用模式快速扫描算法PRSA(Pattern Rapid Scanning Algorithm)和基于编辑距离的模式匹配算法PMABED(Pattern Matching Algorithm Based on Edit Distance)计算任意实体对的相似度,对步骤S2经过分块后的实体合集进行模式匹配,利用模式抽取算法PEA(Pattern Extract Algorithm),将匹配的即实体合集中相似度大于给定阈值ζ的实体对通过PMABED算法进行回溯合并,得到抽取的模式合集,利用PRSA、PMABED算法对模式合集进行模式匹配,利用PEA算法,将匹配的即模式合集中相似度大于给定阈值ζ的模式通过PMABED算法回溯进行合并,得到共同模式;S4:得到实体统一的结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710631190.0/,转载请声明来源钻瓜专利网。