[发明专利]一种融合位置和语义约束的多源POI数据清洗方法有效
申请号: | 202210613379.8 | 申请日: | 2022-05-31 |
公开(公告)号: | CN114911787B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 陈振杰;许长青;徐润鹏;周琛;曾智伟;夏南;马磊;陈东 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F40/216;G06F40/289 |
代理公司: | 南京行高知识产权代理有限公司 32404 | 代理人: | 赵洪玉 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 位置 语义 约束 poi 数据 清洗 方法 | ||
1.一种融合位置和语义约束的多源POI数据清洗方法,其特征在于执行如下步骤:
步骤1,对收集到的多源POI数据进行GeoHash转换,将二维坐标数据转换为字符串;
步骤2,对转换后的字符串进行邻近点查询;
步骤3,对步骤2中存在邻近点的窗口进行冗余处理,依次进行冗余数据处理、不完整数据处理、不一致数据处理和高相似数据处理;
步骤4,基于汉语语言模型Chinese Language Model和隐马尔可夫模型Hidden MarkovMode共同构建分词方案;
步骤5,对步骤4处理后的数据进行冗余处理;
步骤6,基于步骤5重新构建的分词方案的词频统计完成POI数据重匹配,实现所述多源POI数据清洗。
2.根据权利要求1所述的融合位置和语义约束的多源POI数据清洗方法,其特征在于:对转换后的字符串进行基于B+树方法以前缀匹配进行邻近点查询。
3.根据权利要求1所述的融合位置和语义约束的多源POI数据清洗方法,其特征在于:步骤3中对于冗余数据、不完整数据、不一致数据和高相似数据的处理分别如下,
冗余数据处理,对同平台数据连续追踪而导致的重复数据进行保留一条操作;对少量冗余数据的部分属性保持一致的情况,采用基于位置属性保留数据完备性最高的数据的方式处理;
不完整数据处理,首先和完备数据进行冗余判断,若定义为冗余数据则剔除,若为非冗余数据,则更进一步判断是否为不一致数据或高相似数据,并依照对应方式处理同时附加对应标签;
不一致数据处理,对于非邻近点的不一致数据,通过对不同地理服务平台多次地理解析和地址解析以核实POI点名称和位置;对于邻近点的不一致数据,选择其中被解析信息最多的位置数据作为实体位置信息,剔除其他不一致数据;
高相似数据处理,利用不一致数据处理方式对实体描述名称进行词组分割,建立相似数据索引并基于指定地域的区域映射库获得地址数据,并选择相对地理要素更全面的POI数据进行存储。
4. 根据权利要求1所述的融合位置和语义约束的多源POI数据清洗方法,其特征在于:步骤4中,针对已有词表依赖的POI名称拆分使用Chinese Language Model进行处理;针对未被词表收录但需被划分的词语,使用Hidden Markov Mode基于字构词对POI名称分词进行划分。
5.根据权利要求1所述的融合位置和语义约束的多源POI数据清洗方法,其特征在于:步骤5中冗余处理过程与步骤3除处理对象不同外其余部分一致。
6.根据权利要求1所述的融合位置和语义约束的多源POI数据清洗方法,其特征在于:步骤6的重构过程中需确定与POI数据的名称相关的关键词以及对应关键词的词频,根据所述词频舍弃逆向文件频率,以此来选择高概率的关键词来对应相应的POI数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210613379.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种有机混酸分离纯化方法
- 下一篇:一种定位压紧组件及其形成定位装置和方法