[发明专利]一种基于自训练地址切分模型的全国地址归一化方法在审

专利信息
申请号: 202111413815.9 申请日: 2021-11-25
公开(公告)号: CN114416892A 公开(公告)日: 2022-04-29
发明(设计)人: 王栋平;蒋言;薛璐璐;张晓燕 申请(专利权)人: 南京烽火天地通信科技有限公司
主分类号: G06F16/29 分类号: G06F16/29;G06F16/33;G06F40/289;G06N3/04;G06N3/08
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 陆志斌
地址: 211161 江苏省南京*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 训练 地址 切分 模型 全国 归一化 方法
【说明书】:

发明公开了一种基于自训练地址切分模型的全国地址归一化方法,涉及全国地址归一化领域,具体如下:首先采集互联网和相关部门的地址数据;然后对采集的互联网和相关部门的地址数据进行预处理,其中,预处理具体包含地址数据特征分析、自训练模型切词、地址融合和地址存储四部分;其次利用地址融合好的地址构建标准地址库;最后基于构建的标准地址库,提供地址归一化接口,实现地址规范、地址补全和地址纠偏。本发明目的是对多源的地址数据制定统一的标准,构建标准地址库,提供地址规范、补全和纠偏的服务,实现多源地址数据的归一化。

技术领域

本发明涉及全国地址归一化领域,尤其涉及一种基于自训练地址切分模型的全国地址归一化方法。

背景技术

随着我国数字城市和智慧城市的开展,相关部门采集并积累了大量的地址数据,大量行业和个人信息需要通过地址匹配服务实现空间表达,从而实现与地理数据的融合和大数据分析应用。但是,不同部门的地址数据组织结构多样,缺乏统一的标准,不利于地址的共享服务。因此,地址数据归一化已成为地址广泛应用的迫切需要,也是标准地址库建设急需解决的问题。传统的地址归一化方法多是利用中文地址分词与词典结合最大正向匹配算法或最大逆向匹配算法进行地址要素分词,这种地址要素分词方法在一定程度上会产生语义歧义问题,如“南京大学”中的“南京”会被切成地址要素市(city)。另外,传统的地址归一化方法没有对地址进行融合,对于表述不一的地址无法整合成一条标准地址,如“江苏省南京市建邺区沙洲街道云龙山路88号”、“江苏省南京市建邺区烽火科技”、“江苏省南京市建邺区沙洲街道烽火科技大厦”、“云龙山路88号烽火科技”无法整合成一条标准地址“江苏省南京市建邺区沙洲街道云龙山路88号烽火科技大厦”。

发明内容

针对背景技术中的问题,本发明提出一种基于自训练地址切分模型的全国地址归一化方法来对该问题做到有效的解决,该方法对多源的地址数据制定统一的标准,构建标准地址库,提供地址规范、补全和纠偏的服务,实现多源地址数据的归一化。

本发明为解决上述技术问题采用以下技术方案:

一种基于自训练地址切分模型的全国地址归一化方法,具体包含如下步骤;

步骤1,采集互联网和相关部门的地址数据;

步骤2,对步骤1采集的互联网和相关部门的地址数据进行预处理,预处理具体包含地址数据特征分析、自训练模型切词、地址融合和地址存储四部分;

步骤3,利用步骤2中融合好的地址构建标准地址库;

步骤4,基于步骤3构建的标准地址库,提供地址归一化接口,实现地址规范、地址补全和地址纠偏。

作为本发明一种基于自训练地址切分模型的全国地址归一化方法的进一步优选方案,在步骤2中,地址数据特征分析具体如下

对采集到的多源地址数据,进行特征分析,将地址数据定义为不同的地址要素;其中,地址要素包含省、市、区、街道、村、路、路号、标志性建筑物、与标志性建筑物并列的建筑物、兴趣点、户室和与地址无关的信息;

作为本发明一种基于自训练地址切分模型的全国地址归一化方法的进一步优选方案,在步骤2中,自训练模型切词具体如下;

步骤2.1,制定标注规范,规范内容为:按照步骤4中定义的地址要素,对地址打标;

步骤2.2,根据标注规范,将人工标注地址作为原始模型的原始训练数据,人工标注是指将原始地址数据人工进行12个地址要素的分词和标记;

步骤2.3,统计出人工标注数据的地址要素级别序列,根据统计出的地址要素级别序列,然后按不同地址要素级别序列的比列,成倍的构造标注好的训练数据;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火天地通信科技有限公司,未经南京烽火天地通信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111413815.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top