[发明专利]一种不同数据源的兴趣点的模糊匹配方法有效
申请号: | 201510430517.9 | 申请日: | 2015-07-22 |
公开(公告)号: | CN105045880B | 公开(公告)日: | 2018-09-18 |
发明(设计)人: | 郭文忠;陈羽中;於志勇;赵水源 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 不同 数据源 兴趣 模糊 匹配 方法 | ||
本发明涉及一种不同数据源的兴趣点的模糊匹配方法,包括以下步骤:1、分别从两个不同的网站中采集兴趣点数据构成数据集A、B;2、提取名称完全匹配的兴趣点配对形成数据样本,通过数据样本计算平均位置偏差并确定匹配范围;3、分别从数据集A、B中取待匹配点和待匹配集;4、对待匹配点和待匹配集中所有兴趣点的名称进行逐级地址分词,然后通过地址词典过滤名称中的地址信息;5、采用KMP算法对待匹配点和待匹配集中每个兴趣点进行匹配,通过匹配率判断兴趣点是否相同;6、同理,对数据集A中的其他兴趣点,在数据集B中找出与其匹配的兴趣点。该方法有利于精确匹配不同数据源的兴趣点数据,过滤重复的数据。
技术领域
本发明涉及字符串模糊匹配技术领域,特别涉及一种不同数据源的兴趣点的模糊匹配方法。
背景技术
随着大数据时代的到来,智慧城市服务项目受到了许多国内外学者的关注。数以百万的用户提供了大量的兴趣点数据及签到数据,这些数据为智慧城市服务项目提供了数据源。但是不同源提供的兴趣点数据存在重复的可能,导致数据库存储时产生冗余,并且可能影响计算结果的准确性。不同数据源的兴趣点数据的经纬度采用的是不同的标准,所以很难通过兴趣点的经纬度直接对相同的兴趣点进行匹配,进而需要一种方法来匹配不同数据源的兴趣点数据。
发明内容
本发明的目的在于提供一种不同数据源的兴趣点的模糊匹配方法,该方法有利于精确匹配不同数据源的兴趣点数据,过滤重复的数据。
为实现上述目的,本发明的技术方案是:一种不同数据源的兴趣点的模糊匹配方法,包括以下步骤:
步骤S1:分别从两个不同的网站中采集兴趣点数据,其中包括兴趣点的名称、地址、经度、纬度信息,构成数据集A和数据集B;
步骤S2:从所述数据集A、B中找出名称完全匹配的兴趣点配对形成数据样本,计算数据样本中所有配对的兴趣点之间的位置偏差,所述位置偏差包括两兴趣点之间的偏差距离和偏差角度;去噪处理后,计算平均位置偏差,包括平均偏差距离和平均偏差角度,并确定匹配范围;
步骤S3:取数据集A中的一个兴趣点作为待匹配点,根据步骤S2获得的平均偏差距离d、平均偏差角度o,找出数据集B中所有在待匹配点匹配范围内的兴趣点组成待匹配集;
步骤S4:对地址分词字段建立逐级的父子关系,并根据地址分词字段之间的关系对所述待匹配点的地址进行逐级地址分词,并采用地址分词得到的地址字段形成临时的地址词典,然后通过所述临时的地址词典过滤待匹配点和待匹配集中所有兴趣点的名称中的地址信息;
步骤S5:基于已过滤掉地址信息的名称,采用KMP算法对待匹配点和待匹配集中每个兴趣点进行匹配,当某个兴趣点使匹配率最大且所述匹配率大于设定值时,则判定该兴趣点与待匹配点属于同一个兴趣点;
步骤S6:对数据集A中的其他兴趣点,按步骤S3~S5的方法,在数据集B中找出与其匹配的兴趣点。
进一步的,所述待匹配点匹配范围为:以与待匹配点偏差的距离为平均偏差距离d、偏差的角度为平均偏差角度o的点为中心,以匹配半径r为半径的圆。
进一步的,步骤S2中,形成数据样本并确定平均位置偏差和匹配范围的方法为:
步骤S201:找出所述数据集A、B中名称完全匹配的兴趣点,配对形成数据样本集合{TS(a1,b1),TS(a2,b2),…,TS(ai,bi),…,TS(an,bn)},TS(ai,bi)表示第i个完全匹配对,即数据集A的兴趣点ai与数据集B的兴趣点bi的名称完全匹配,i∈{1,2,…,n},n为集合长度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510430517.9/2.html,转载请声明来源钻瓜专利网。