[发明专利]基于倒排索引和神经网络算法的地址匹配方法有效
申请号: | 202110702288.7 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113326267B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 陈剑;陈健鹏;佘祥荣 | 申请(专利权)人: | 长三角信息智能创新研究院 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458;G06N3/0464;G06N3/0442;G06N3/08 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 董杰 |
地址: | 241000 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 索引 神经网络 算法 地址 匹配 方法 | ||
1.一种基于倒排索引和神经网络算法的地址匹配方法,其特征在于,包括:
步骤1、构建Trie地址树;
步骤2、构建索引结构;
步骤3、索引匹配;
步骤4、构建基于神经网络算法的地址语义表达模型;
步骤5、构建基于孪生网络的地址语义相似度模型;
步骤6、对待匹配地址和标准地址集Ai中的每一个地址进行相似度计算,获取到与待匹配标准地址的相似度,设定相似度阈值,查找到符合阈值的标准地址;
在步骤2中,根据Trie地址树对标准地址库中的地址分词,得到每个地址的A、B、C、D、E、F结构;其中,A至F为地址的语法结构,除去A至F外的地址信息为语义结构;
根据标准地址的A至F语法信息结构构建倒排索引,其中,标准地址来源于规范合格的地址数据;
在步骤3中,对倒排索引检索结构中候选标准地址中的语法结构信息赋予唯一ID,将该语法结构拆分成多个索引关键词;其中,索引关键词的范围从分词结果A至F中获取,并且,每一个索引关键词至少关联一个ID;
待比对地址语法结构被拆分成多个检索词,检索词与索引关键词进行匹配得到所对应的ID集合,形成候选标准地址集;
具体的,对待匹配的地址,根据Trie地址树提取A、B、C、D、E、F结构,依次按照关键词的顺序F、E、D、C、B、A,查找对应的标准地址;若关键词F从标准库中查找对应的标准地址集Af,利用步骤4中基于地址语义表达的方法进行地址匹配;若没有查找到Af,则根据关键词E从标准库中查找对应的标准地址集Ae,利用步骤4中基于地址语义表达的方法进行地址匹配,若没有查找到Ae,则依次按照顺序进行查找,直至找到对应的标准地址集Ai,其中,i取值范围为a至f;
步骤4中包括嵌入阶段、Bi-LSTM阶段、CNN阶段和Attention阶段;
在嵌入阶段将中文地址转化为向量的形式,即将输入地址映射成为固定m×n的矩阵;采用Jieba的分词算法,并且加载自定义分词语料库,其中,分词语料库的构建根据城市地名和地址的特殊性,补充Jieba分词对未识别名称的正确分词;
具体的,地址A由N个词组成,即A={a1,a2,...,aN},对于地址A中的每个词,可以从词向量字典Dw∈Rdw|V|中查找到词向量;其中,V是词表的个数,dw是词表的维度;词向量字典Dw通过学习获得,词向量的维度dw根据需求设置;由此,地址A中的词ai的向量是:ei=DwVi,其中,Vi是一个长度为|V|的向量,其值在ei处为1,其余处为0;此时,地址A的向量可表示为e={e1,e2,...,eT};
在Bi-LSTM阶段使用双向LSTM提取地址特征信息,以保证完整提取地址的语义表示;
在CNN阶段将整体的数据局部化,在每一个局部数据中利用卷积核函数提取特征,随后重构所有的碎片化特征,在目标函数的指导下实现对数据整体信息的提取;
在Attention阶段利用Attention机制表征地址的语义信息,以通过分配不同的权重来使语义向量表示更丰富的语义信息;其中,
定义H是包含[h1,h2,...,hT]的输入向量,本阶段输入向量由CNN和Bi-LSTM阶段的加权输出而得,T是句子的长度,相关公式如下:
A'=tanh(H)
α=softmax(WTA')
A”=HαT
其中,H∈Rdw×T,dW是词向量的维度,W是通过训练获得,WT是其转置,A”经过Attention阶段之后的向量表示;
最终的每个地址向量的表示为:
其中,矩阵每一个行向量相加得到最终向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长三角信息智能创新研究院,未经长三角信息智能创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110702288.7/1.html,转载请声明来源钻瓜专利网。