[发明专利]一种融合位置和语义约束的多源POI数据清洗方法有效

申请号：	202210613379.8	申请日：	2022-05-31
公开（公告）号：	CN114911787B	公开（公告）日：	2023-10-27
发明（设计）人：	陈振杰;许长青;徐润鹏;周琛;曾智伟;夏南;马磊;陈东	申请（专利权）人：	南京大学
主分类号：	G06F16/215	分类号：	G06F16/215;G06F40/216;G06F40/289
代理公司：	南京行高知识产权代理有限公司 32404	代理人：	赵洪玉
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合位置语义约束 poi 数据清洗方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融合位置和语义约束的多源POI数据清洗方法，其特征在于执行如下步骤：

步骤1，对收集到的多源POI数据进行GeoHash转换，将二维坐标数据转换为字符串；

步骤2，对转换后的字符串进行邻近点查询；

步骤3，对步骤2中存在邻近点的窗口进行冗余处理，依次进行冗余数据处理、不完整数据处理、不一致数据处理和高相似数据处理；

步骤4，基于汉语语言模型Chinese Language Model和隐马尔可夫模型Hidden MarkovMode共同构建分词方案；

步骤5，对步骤4处理后的数据进行冗余处理；

步骤6，基于步骤5重新构建的分词方案的词频统计完成POI数据重匹配，实现所述多源POI数据清洗。

2.根据权利要求1所述的融合位置和语义约束的多源POI数据清洗方法，其特征在于：对转换后的字符串进行基于B+树方法以前缀匹配进行邻近点查询。

3.根据权利要求1所述的融合位置和语义约束的多源POI数据清洗方法，其特征在于：步骤3中对于冗余数据、不完整数据、不一致数据和高相似数据的处理分别如下，

冗余数据处理，对同平台数据连续追踪而导致的重复数据进行保留一条操作；对少量冗余数据的部分属性保持一致的情况，采用基于位置属性保留数据完备性最高的数据的方式处理；

不完整数据处理，首先和完备数据进行冗余判断，若定义为冗余数据则剔除，若为非冗余数据，则更进一步判断是否为不一致数据或高相似数据，并依照对应方式处理同时附加对应标签；

不一致数据处理，对于非邻近点的不一致数据，通过对不同地理服务平台多次地理解析和地址解析以核实POI点名称和位置；对于邻近点的不一致数据，选择其中被解析信息最多的位置数据作为实体位置信息，剔除其他不一致数据；

高相似数据处理，利用不一致数据处理方式对实体描述名称进行词组分割，建立相似数据索引并基于指定地域的区域映射库获得地址数据，并选择相对地理要素更全面的POI数据进行存储。

4. 根据权利要求1所述的融合位置和语义约束的多源POI数据清洗方法，其特征在于：步骤4中，针对已有词表依赖的POI名称拆分使用Chinese Language Model进行处理；针对未被词表收录但需被划分的词语，使用Hidden Markov Mode基于字构词对POI名称分词进行划分。

5.根据权利要求1所述的融合位置和语义约束的多源POI数据清洗方法，其特征在于：步骤5中冗余处理过程与步骤3除处理对象不同外其余部分一致。

6.根据权利要求1所述的融合位置和语义约束的多源POI数据清洗方法，其特征在于：步骤6的重构过程中需确定与POI数据的名称相关的关键词以及对应关键词的词频，根据所述词频舍弃逆向文件频率，以此来选择高概率的关键词来对应相应的POI数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210613379.8/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载