[发明专利]基于AI的房屋地址匹配方法、存储介质及设备有效
申请号: | 202111128853.X | 申请日: | 2021-09-26 |
公开(公告)号: | CN113869052B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 叶建生;谢运涛;巫飞;郑向东;张泽蔚;蒋晓敏 | 申请(专利权)人: | 杭州中房信息科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/247;G06F16/33;G06F18/214 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ai 房屋 地址 匹配 方法 存储 介质 设备 | ||
本发明公开了一种基于AI的房屋地址匹配方法、存储介质及设备,属于自然语言处理领域。为了尽可能的提高匹配准确率,本发明利用预训练的BERT模型,分别构建了编码模型、二分类文本模型、命名实体识别模型,从而通过编码模型进行了初次匹配,由二分类文本模型进行了第一次匹配验证,由命名实体识别模型进行了第二次匹配验证。与传统的匹配,以及单纯的使用BERT进行匹配的算法进行比较,本发明显著的提高了房屋地址文本匹配的准确率和效率。
技术领域
本发明属于自然语言处理领域,具体涉及一种基于AI的房屋地址匹配方法、存储介质及设备。
背景技术
传统的地址匹配方法主要关注地址文本间字与字的匹配关系,无法准确识别不同表达方式下不同地址的同一指向关系。因此在这一背景下,要对多源异构的海量地址数据进行匹配,传统的地址匹配方法已不再适用。目前,传统的地址匹配方法主要存在的问题如下:
1)地址匹配规则梳理困难,需反复清洗数据形态,制定匹配规则。
2)地址匹配周期长,由于“制定规则-匹配数据-检查数据-输出结果”在编写数据库匹配脚本后需要反复修改、调试,才能输出最终结果,耗时耗力。
3)地址匹配率难以提升,传统的地址匹配数据库脚本(正则表达式)的整体准确率在55%左右,需要数据清洗人员逐一分析数据样本发现匹配规则。当匹配率达到一定程度必须需要投入更多的人力,采用人工匹配提升匹配率,自动匹配方式难于提升匹配度,既耗时又耗力。
随着人工智能(Artificial Intelligence,AI)技术的不断发展进步,其已经深入城市建设、城市管理、监控、预警,遍布各行各业,因此借助AI深度学习中对于自然语言的处理能力,利用模型自主学习能力,亦可训练NLP模型用于支持各类地址信息匹配,提高整个地址匹配工作的工作效率、复用率和准确度。但是,针对房屋地址数据中复杂多变的自然语言表述形式,如何利用AI技术来提高匹配的准确率和召回率,是目前亟待解决的技术问题。
发明内容
本发明的目的在于解决现有技术中存在的问题,并提供一种基于AI的房屋地址匹配方法、存储介质及设备。
本发明所采用的具体技术方案如下:
第一方面,本发明提供了一种基于AI的房屋地址匹配方法,用于从经过规范化预处理的待搜索地址数据集中匹配得到与目标房屋地址同义的房屋地址数据,其包括:
S1、以第一房屋地址数据集作为训练数据,利用无监督相似度匹配算法对第一预训练模型BERT进行微调,得到编码模型;
S2、利用S1中的编码模型对目标房屋地址和待搜索地址数据集中的每一条待匹配地址分别进行编码,将每一条地址文本转换为高维向量;
S3、计算S2得到的目标房屋地址的高维向量与每一条待匹配地址的高维向量之间的相似度,并召回与目标房屋地址相似度最高的前K条待匹配地址;
S4、利用预先标注好同义地址对的第二房屋地址数据集作为训练数据,对基于第二预训练模型BERT的二分类文本模型进行微调,得到地址配对模型;
S5、利用地址配对模型对目标房屋地址与S3中召回的每一条待匹配地址是否属于同义地址进行分类,将与目标房屋地址同义的待匹配地址作为待验证地址;
S6、利用预先标注好不同层级实体的第三房屋地址数据集作为训练数据,对基于第三预训练模型BERT的命名实体识别模型进行微调,训练得到能够从地址文本中提取不同层级实体的地址实体提取模型;
S7、利用地址实体提取模型从目标房屋地址和每一条待验证地址中分别识别出不同层级的地址实体,然后对每一层级的地址实体进行二次验证,若待验证地址中每一层级的地址实体均与目标房屋地址对应层级的地址实体一致,才将待验证地址作为与目标房屋地址同义的配对地址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州中房信息科技有限公司,未经杭州中房信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111128853.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像坏点检测方法、系统及装置
- 下一篇:一种趋磁纳米马达及其制备方法