[发明专利]一种基于自训练地址切分模型的全国地址归一化方法在审
申请号: | 202111413815.9 | 申请日: | 2021-11-25 |
公开(公告)号: | CN114416892A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 王栋平;蒋言;薛璐璐;张晓燕 | 申请(专利权)人: | 南京烽火天地通信科技有限公司 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F16/33;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 陆志斌 |
地址: | 211161 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 地址 切分 模型 全国 归一化 方法 | ||
1.一种基于自训练地址切分模型的全国地址归一化方法,其特征在于该方法具体包含如下4个步骤:
步骤1,采集互联网和相关部门的地址数据;
步骤2,对步骤1采集的互联网和相关部门的地址数据进行预处理,其中,预处理过程具体包含地址数据特征分析、自训练模型切词、地址融合和地址存储四部分;
步骤3,利用步骤2融合好的地址构建标准地址库;
步骤4,基于步骤3构建的标准地址库,提供地址归一化接口,实现地址规范、地址补全和地址纠偏。
2.根据权利要求1所述的一种基于自训练地址切分模型的全国地址归一化方法,其特征在于:在步骤2中,地址数据特征分析具体如下;
对采集到的多源地址数据,进行特征分析,将地址数据分别定义为不同级别的地址要素;其中,地址要素包含省、市、区、街道、村、路、路号、标志性建筑物、与标志性建筑物并列的建筑物、兴趣点、户室和与地址无关的信息。
3.根据权利要求1所述的一种基于自训练地址切分模型的全国地址归一化方法,其特征在于:在步骤2中,自训练模型切词具体如下;
步骤2.1,制定标注规范,规范内容为:严格按照步骤4中定义的地址要素,对地址打标;
步骤2.2,根据标注规范,将人工标注地址作为原始模型的原始训练数据,人工标注是指将原始地址数据人工进行12个地址要素的分词和标记;
步骤2.3,统计出人工标注数据的地址要素级别序列,根据统计出的地址要素级别序列,然后按不同地址要素级别序列的比列,成倍的构造标注好的训练数据;
步骤2.4,把构造的已标注的训练数据+原始人工标注的训练数据=训练数据,按照训练集、测试集和验证集划分,进行地址要素切词模型训练,选取切词准确率最高的作为最终的模型,进而用最终保留的模型对地址进行地址要素切词。
4.根据权利要求1所述的一种基于自训练地址切分模型的全国地址归一化方法,其特征在于:在步骤2中,地址融合具体如下:
步骤a,对采集到的多源地址数据利用训练好的自训练地址切分模型进行地址分词;
步骤b,设定规则,例如:地址字符长度小于5的被视为无价值的地址,省市区隶属关系不正确的被视为错误的地址。过滤掉分词后的地址数据中无价值或错误的地址;
步骤c,对过滤后的地址数据,采用规则和投票机制进行地址融合,地址融合提取8个地址要素:省、市、区、街道、村、路、路号和标志性建筑物landmark,忽略原始地址中的与标志性建筑物并列的建筑物、兴趣点、户室和与地址无关的信息四个地址要素,融合后的地址中增加一个landmark_search字段,landmark_search是一个字典,记录同一个landmark不同的写法以及该写法对应的频数。
5.根据权利要求1所述的一种基于自训练地址切分模型的全国地址归一化方法,其特征在于:在步骤3中,利用融合后的8级地址要素的地址构建标准地址库。
6.根据权利要求5所述的一种基于自训练地址切分模型的全国地址归一化方法,其特征在于:所述步骤4具体如下:
步骤4.1,基于步骤3构建的标准地址库,提供地址归一化服务,用户输入待归一化的原始数据地址;
步骤4.2,对原始地址进行预处理,规范数字的写法,统一成全半角写法,去掉地址中存在的非法字符;
步骤4.3对预处理后的地址进行地址要素切词;其中,地址要素包含省、市、区、街道、村、路、路号、标志性建筑物、与标志性建筑物并列的建筑物、兴趣点、户室和与地址无关的信息;
步骤4.4,将切词后的地址数据分为两部分,第一部分包括:省、市、区、街道、村、路、路号和标志性建筑物,第二部分包括:兴趣点和户室;
步骤4.5,针对第一部分数据判断标准地址库中是否存在当前地址的标志性建筑物,若存在,且符合推荐规则,则将地址库中匹配到的推荐度最高的8级地址要素的标准数据与输入数据的第二部分合并,将合并后的结果返回给用户;
步骤4.6,若标准地址库中不存在当前地址的标志性建筑物,判断标准地址库中是否存在当前地址的路和路号,若存在,且符合推荐规则,则将地址库中匹配到的推荐度最高的8级地址要素的标准数据与输入数据的第二部分合并,将合并后的结果返回给用户;
步骤4.7,若标准地址库中不存在当前地址的路和路号,判断标准地址库中是否存在当前地址的路,若存在,且符合推荐规则,则将地址库中匹配到的推荐度最高的8级地址要素的标准数据与输入数据的第二部分合并,将合并后的结果返回给用户;
步骤4.8,按照步骤4.1至步骤4.7所述方法,依次对当前地址的村、街道、镇、区和市进行判断,若存在,且符合推荐规则,将地址库中匹配到的推荐度最高的8级地址要素的标准数据与输入数据的第二部分合并,将合并后的结果返回给用户,若直到当前地址的市都不存在,则该条地址无法归一化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火天地通信科技有限公司,未经南京烽火天地通信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111413815.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种定制日历的方法及其系统
- 下一篇:一种硼酸锶钇铕荧光粉及其制备方法和用途