[发明专利]基于倒排索引和神经网络算法的地址匹配方法有效

专利信息
申请号: 202110702288.7 申请日: 2021-06-24
公开(公告)号: CN113326267B 公开(公告)日: 2023-08-08
发明(设计)人: 陈剑;陈健鹏;佘祥荣 申请(专利权)人: 长三角信息智能创新研究院
主分类号: G06F16/22 分类号: G06F16/22;G06F16/2458;G06N3/0464;G06N3/0442;G06N3/08
代理公司: 北京润平知识产权代理有限公司 11283 代理人: 董杰
地址: 241000 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 索引 神经网络 算法 地址 匹配 方法
【权利要求书】:

1.一种基于倒排索引和神经网络算法的地址匹配方法,其特征在于,包括:

步骤1、构建Trie地址树;

步骤2、构建索引结构;

步骤3、索引匹配;

步骤4、构建基于神经网络算法的地址语义表达模型;

步骤5、构建基于孪生网络的地址语义相似度模型;

步骤6、对待匹配地址和标准地址集Ai中的每一个地址进行相似度计算,获取到与待匹配标准地址的相似度,设定相似度阈值,查找到符合阈值的标准地址;

在步骤2中,根据Trie地址树对标准地址库中的地址分词,得到每个地址的A、B、C、D、E、F结构;其中,A至F为地址的语法结构,除去A至F外的地址信息为语义结构;

根据标准地址的A至F语法信息结构构建倒排索引,其中,标准地址来源于规范合格的地址数据;

在步骤3中,对倒排索引检索结构中候选标准地址中的语法结构信息赋予唯一ID,将该语法结构拆分成多个索引关键词;其中,索引关键词的范围从分词结果A至F中获取,并且,每一个索引关键词至少关联一个ID;

待比对地址语法结构被拆分成多个检索词,检索词与索引关键词进行匹配得到所对应的ID集合,形成候选标准地址集;

具体的,对待匹配的地址,根据Trie地址树提取A、B、C、D、E、F结构,依次按照关键词的顺序F、E、D、C、B、A,查找对应的标准地址;若关键词F从标准库中查找对应的标准地址集Af,利用步骤4中基于地址语义表达的方法进行地址匹配;若没有查找到Af,则根据关键词E从标准库中查找对应的标准地址集Ae,利用步骤4中基于地址语义表达的方法进行地址匹配,若没有查找到Ae,则依次按照顺序进行查找,直至找到对应的标准地址集Ai,其中,i取值范围为a至f;

步骤4中包括嵌入阶段、Bi-LSTM阶段、CNN阶段和Attention阶段;

在嵌入阶段将中文地址转化为向量的形式,即将输入地址映射成为固定m×n的矩阵;采用Jieba的分词算法,并且加载自定义分词语料库,其中,分词语料库的构建根据城市地名和地址的特殊性,补充Jieba分词对未识别名称的正确分词;

具体的,地址A由N个词组成,即A={a1,a2,...,aN},对于地址A中的每个词,可以从词向量字典Dw∈Rdw|V|中查找到词向量;其中,V是词表的个数,dw是词表的维度;词向量字典Dw通过学习获得,词向量的维度dw根据需求设置;由此,地址A中的词ai的向量是:ei=DwVi,其中,Vi是一个长度为|V|的向量,其值在ei处为1,其余处为0;此时,地址A的向量可表示为e={e1,e2,...,eT};

在Bi-LSTM阶段使用双向LSTM提取地址特征信息,以保证完整提取地址的语义表示;

在CNN阶段将整体的数据局部化,在每一个局部数据中利用卷积核函数提取特征,随后重构所有的碎片化特征,在目标函数的指导下实现对数据整体信息的提取;

在Attention阶段利用Attention机制表征地址的语义信息,以通过分配不同的权重来使语义向量表示更丰富的语义信息;其中,

定义H是包含[h1,h2,...,hT]的输入向量,本阶段输入向量由CNN和Bi-LSTM阶段的加权输出而得,T是句子的长度,相关公式如下:

A'=tanh(H)

α=softmax(WTA')

A”=HαT

其中,H∈Rdw×T,dW是词向量的维度,W是通过训练获得,WT是其转置,A”经过Attention阶段之后的向量表示;

最终的每个地址向量的表示为:

其中,矩阵每一个行向量相加得到最终向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长三角信息智能创新研究院,未经长三角信息智能创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110702288.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top