[发明专利]基于倒排索引和神经网络算法的地址匹配方法有效
申请号: | 202110702288.7 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113326267B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 陈剑;陈健鹏;佘祥荣 | 申请(专利权)人: | 长三角信息智能创新研究院 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458;G06N3/0464;G06N3/0442;G06N3/08 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 董杰 |
地址: | 241000 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 索引 神经网络 算法 地址 匹配 方法 | ||
本发明公开了一种基于倒排索引和神经网络算法的地址匹配方法,包括:构建Trie地址树;构建索引结构;索引匹配;构建基于神经网络算法的地址语义表达模型;构建基于孪生网络的地址语义相似度模型;对待匹配地址和标准地址集Ai中的每一个地址进行相似度计算,获取到与待匹配标准地址的相似度,设定相似度阈值,查找到符合阈值的标准地址。其构建了基于语法结构信息的倒排索引机制,减少了匹配次数,节约了匹配时间;也构造了基于注意力机制和Bi‑LSTM‑CNN结合的深度神经网络地址语义表达模型,提升了匹配的准确度;还构造了基于孪生网络的地址相似度模型,将地址匹配任务转化为基于地址语义相似度任务,创新了匹配方式。
技术领域
本发明涉及一种基于倒排索引和神经网络算法的地址匹配方法。
背景技术
中文地名地址的规范化在智慧城市建设中起到至关重要的作用。传统的地名地址规范技术常采用基于字符串相似度或者规则库的方法,与整个标准库进行一对一匹配。一般来说地址匹配分为以下两种:一种是对单一非标准地址的匹配,这类方法主要基于字符串和规则库处理为主;另一种是基于标准库下的地址匹配,这类方法主要基于文本统计特征的方法为主,如支持向量机、最长公共子串、编辑距离等。
但是,现有的这两种方法均存在一定的问题。对于规则库来说,由于中文地址信息的整体结构非常复杂,规则对于处理错乱或缺失的地址显示出一定的局限性;而基于统计特征的方法虽然一定程度上规避了地址结构复杂带来的问题,但标准地址库的建立难度大。同时,此方法对于具有复杂结构,或者包含冗余信息的地址难以规范,主要原因在于其缺乏对地址的语义理解,不能有效提取地址的语义特征。此外,地名地址匹配通常采用一对一方式,对于标准地址库中百万级数据量,逐个匹配的方式会耗费大量的计算资源和时间。
发明内容
本发明的目的是提供一种基于倒排索引和神经网络算法的地址匹配方法,该地址匹配方法构建了基于语法结构信息的倒排索引机制,减少了匹配次数,节约了匹配时间;同时,也构造了基于注意力机制和Bi-LSTM-CNN结合的深度神经网络地址语义表达模型,提升了匹配的准确度;更进一步的,还构造了基于孪生网络的地址相似度模型,将地址匹配任务转化为基于地址语义相似度任务,创新了匹配方式。
为了实现上述目的,本发明提供了一种基于倒排索引和神经网络算法的地址匹配方法,包括:
步骤1、构建Trie地址树;
步骤2、构建索引结构;
步骤3、索引匹配;
步骤4、构建基于神经网络算法的地址语义表达模型;
步骤5、构建基于孪生网络的地址语义相似度模型;
步骤6、对待匹配地址和标准地址集Ai中的每一个地址进行相似度计算,获取到与待匹配标准地址的相似度,设定相似度阈值,查找到符合阈值的标准地址。
优选地,在步骤1中,对于覆盖路径为A-B-C-D-E、符合地名地址表达规范的标准地址无需进行匹配;对于其余丢失部分信息的待匹配地址,则进入后续步骤的匹配。
优选地,在步骤2中,根据Trie地址树对标准地址库中的地址分词,得到每个地址的A、B、C、D、E、F结构;其中,A至F为地址的语法结构,除去A至F外的地址信息为语义结构;
根据标准地址的A至F语法信息结构构建倒排索引,其中,标准地址来源于规范合格的地址数据。
优选地,在步骤3中,对倒排索引检索结构中候选标准地址中的语法结构信息赋予唯一ID,将该语法结构拆分成多个索引关键词;其中,索引关键词的范围从分词结果A至F中获取,并且,每一个索引关键词至少关联一个ID;
待比对地址语法结构被拆分成多个检索词,检索词与索引关键词进行匹配得到所对应的ID集合,形成候选标准地址集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长三角信息智能创新研究院,未经长三角信息智能创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110702288.7/2.html,转载请声明来源钻瓜专利网。