[发明专利]地址相似度确定方法、装置和计算机设备在审
申请号: | 202110690657.5 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113343688A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 王济宣;侯亦杨 | 申请(专利权)人: | 南京星云数字技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 劳奕琴 |
地址: | 211800 江苏省南京市江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地址 相似 确定 方法 装置 计算机 设备 | ||
本申请涉及一种地址相似度确定方法、装置和计算机设备。地址相似度确定方法包括:获取第一原始地址中的第一具体地址信息,以及获取第二原始地址中的第二具体地址信息;采用N‑Gram模型对第一具体地址信息进行分词,得到第一系列分词,以及采用N‑Gram模型对第二具体地址信息进行分词,得到第二系列分词;对第一系列分词和第二系列分词进行相似度计算,获得第一类相似度值;根据第一类相似度值,确定第一原始地址和第二原始地址的相似度。采用本方法能准确确定第一原始地址和第二原始地址的相似度。
技术领域
本申请涉及计算机数据处理技术领域,特别是涉及一种地址相似度确定方法、装置和计算机设备。
背景技术
目前,地址相似度判断的技术广泛应用于各领域,如金融保险领域,需要侦测用户有意或无意状况下提供的虚假错误地址从而进行更加准确的信用判断,作为电商平台需要侦测用户的收货地址从而判断刷单等行为。在具体应用场合中,大量相似度较高的地址可能被当作异常地址,计算机会根据这些地址生成异常地址列表,供审核人员专门审核或处理。
目前常用的地址相似度判断的方法主要是使用字符串间的属性进行比较,例如文本编辑距离,或其他字符串距离算法。然而,由于地址字符串一般不能通过差多少字来展现其差别,例如“南京市北京西路100号”和“上海市北京西路100号”,从文本上11个字符中仅相差2个字符,但是实际上完全不指代同一地址或是接近的地址。因此,此类方法对地址相似度的判断,准确度较低。
发明内容
基于此,有必要针对上述技术问题,提供一种地址相似度确定方法、装置和计算机设备,能够提高地址相似度的准确度。
一种地址相似度确定方法,包括:
获取第一原始地址中的第一具体地址信息,所述第一具体地址信息为由所述第一原始地址中除行政区域信息之外的地址信息构成,以及获取第二原始地址中的第二具体地址信息,所述第二具体地址信息为由所述第二原始地址中除行政区域信息之外的地址信息构成,其中,所述第一原始地址的行政区域信息和所述第二原始地址的行政区域信息表征同一行政区域;采用N-Gram模型对所述第一具体地址信息进行分词,得到第一系列分词,以及采用N-Gram模型对所述第二具体地址信息进行分词,得到第二系列分词;对所述第一系列分词和所述第二系列分词进行相似度计算,获得第一类相似度值;根据所述第一类相似度值,确定所述第一原始地址和所述第二原始地址的相似度。
在其中一个实施例中,所述第一具体地址信息包括第一描述字段和第一门牌信息,所述采用N-Gram模型对所述第一具体地址信息进行分词,得到第一系列分词,包括:采用所述N-Gram模型对所述第一描述字段进行分词,得到所述第一系列分词;所述第二具体地址信息包括第二描述字段和第二门牌信息,所述采用N-Gram模型对所述第二具体地址信息进行分词,得到第二系列分词,包括:采用所述N-Gram模型对所述第二描述字段进行分词,得到所述第二系列分词;所述方法还包括:对所述第一门牌信息和所述第二门牌信息进行相似度计算,获得第二类相似度值;所述根据所述第一类相似度值,确定所述第一原始地址和所述第二原始地址的相似度,包括:根据所述第一类相似度值和所述第二类相似度值,确定所述第一原始地址和所述第二原始地址的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京星云数字技术有限公司,未经南京星云数字技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110690657.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种建筑工程用的稳定低噪型土坯夯实设备
- 下一篇:一种在线噪声监测方法及装置