[发明专利]基于多任务联合学习与地址层级结构知识的地址匹配方法有效

专利信息
申请号: 202110159689.2 申请日: 2021-02-05
公开(公告)号: CN112528664B 公开(公告)日: 2021-04-27
发明(设计)人: 毛星亮;李芳芳;路毅恒;徐雪松 申请(专利权)人: 湖南工商大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/284;G06F40/289;G06F16/9537;G06N3/04
代理公司: 长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228 代理人: 黄敏华
地址: 410205 *** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 任务 联合 学习 地址 层级 结构 知识 匹配 方法
【说明书】:

发明涉及一种基于多任务联合学习与地址层级结构知识的地址匹配方法,具体包括如下步骤:S1:输入地址对;S2:地址对进入共享地址特征抽取网络;地址对进入地址要素标注网络,经标注后得到第一分词结果,第一分词结果进入地址要素识别网络;S3:共享地址特征经进入地址要素识别网络,经分词后,得到第二分词结果,第二分词结果与第一分词结果比对;用于判断第二分词结果是否符合第一分词结果和地址要素层级顺序,若不符合,重新调整共享地址特征;S4:调整后的共享地址特征进入地址匹配网络,用于判断输入的地址对是否匹配;S5:输出匹配结果。本发明将地址层级要素识别任务与地址匹配任务联合起来学习,从而提升模型的性能。

技术领域

本发明涉及基于多任务联合学习与地址层级结构知识的地址匹配方法。

背景技术

地址匹配是将需要查询的非结构化的地址与数据库中标准的地址进行匹配,以便将随意的地址转换为标准的地理坐标,从而在地图上进行定位,关键问题是判别两个地址文本是否匹配,涉及到对应的地址层级结构要素的对比。地址要素是指省、市、区、街道等地址实体的名字(如深圳市)。以往的方法主要集中于基于复杂的规则的字符串匹配和基于机器学习或深度学习模型的浅层语义匹配,忽略了地址特有的地址层级结构信息。

传统方法通常基于逐个字符来判别字符串相似性,如使用欧式距离与余弦距离衡量地址匹配程度,有时为了考虑地址层级结构的关系,需要人工设计复杂的规则去识别地址的层级要素,从而提高地址匹配的精度。最近虽然使用了机器学习方法,但只提取了地址的浅层语义,有些漏掉了其真实的含义,对于那些字符重复率高但实际意义不同的地址对很容易判断错误。比如“深圳市南山区南山街道向南村六坊24号501”与“深圳市南山区南山街道向南社区0150号”会被误判成匹配的地址。

现有的方法主要分为两种,一是基于人工规则的匹配方式,部分考虑了地址层级结构,但是规则的设计耗费了大量人力物力,而且只适用于特定的情况,精度较低,另一种是基于机器学习与深度学习的方式,虽然一定程度上克服了人工设计规则,但是都忽略了地址层级结构信息。

最近随着深度学习与自然语言处理的快速发展,越来越多的方法被用于地理学科。深度学习是一种端到端的处理方法,因此极大程度地缓解了人工设计规则的问题。深度学习模型可以自动捕获有意义且深层次的语义特征,因此一些端到端的方法被提出来去判断字符串相似性。如2020年林玥等人使用增强型顺序推理深度学习模型ESIM(EnhancedLSTM for Language Inference,用于语言推理的增强型LSTM)从局部和整体推断地址是否匹配,并通过实验证明这是一种判断地址匹配的有效方法,然而他们忽略了如何使模型学习到地址层级信息。

发明内容

本发明的目的是提供一种基于多任务联合学习与地址层级结构知识的地址匹配方法,能使模型学习到地址层级信息,本发明从深度学习中的多任务学习的角度出发,仿照人类判别地址匹配的过程,将地址要素识别任务与地址匹配任务联合起来学习,同时把地址层级结构知识融入到神经网络中进行训练,从而提升模型的性能。

为达到上述目的而采用了一种基于多任务联合学习与地址层级结构知识的地址匹配方法,具体包括如下步骤:

S1:输入地址对;

S2:所述地址对进入共享地址特征抽取网络作为共享地址特征;所述地址对进入基于分词特征的地址要素标注网络,所述地址对经基于分词特征的地址要素标注网络标注后得到第一分词结果,所述第一分词结果具有地址要素的层级划分结果,所述第一分词结果进入地址要素识别网络;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南工商大学,未经湖南工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110159689.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top