[发明专利]基于倒排索引和神经网络算法的地址匹配方法有效

申请号：	202110702288.7	申请日：	2021-06-24
公开（公告）号：	CN113326267B	公开（公告）日：	2023-08-08
发明（设计）人：	陈剑;陈健鹏;佘祥荣	申请（专利权）人：	长三角信息智能创新研究院
主分类号：	G06F16/22	分类号：	G06F16/22;G06F16/2458;G06N3/0464;G06N3/0442;G06N3/08
代理公司：	北京润平知识产权代理有限公司 11283	代理人：	董杰
地址：	241000 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于索引神经网络算法地址匹配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于倒排索引和神经网络算法的地址匹配方法，其特征在于，包括：

步骤1、构建Trie地址树；

步骤2、构建索引结构；

步骤3、索引匹配；

步骤4、构建基于神经网络算法的地址语义表达模型；

步骤5、构建基于孪生网络的地址语义相似度模型；

步骤6、对待匹配地址和标准地址集Ai中的每一个地址进行相似度计算，获取到与待匹配标准地址的相似度，设定相似度阈值，查找到符合阈值的标准地址；

在步骤2中，根据Trie地址树对标准地址库中的地址分词，得到每个地址的A、B、C、D、E、F结构；其中，A至F为地址的语法结构，除去A至F外的地址信息为语义结构；

根据标准地址的A至F语法信息结构构建倒排索引，其中，标准地址来源于规范合格的地址数据；

在步骤3中，对倒排索引检索结构中候选标准地址中的语法结构信息赋予唯一ID，将该语法结构拆分成多个索引关键词；其中，索引关键词的范围从分词结果A至F中获取，并且，每一个索引关键词至少关联一个ID；

待比对地址语法结构被拆分成多个检索词，检索词与索引关键词进行匹配得到所对应的ID集合，形成候选标准地址集；

具体的，对待匹配的地址，根据Trie地址树提取A、B、C、D、E、F结构，依次按照关键词的顺序F、E、D、C、B、A，查找对应的标准地址；若关键词F从标准库中查找对应的标准地址集A_f，利用步骤4中基于地址语义表达的方法进行地址匹配；若没有查找到A_f，则根据关键词E从标准库中查找对应的标准地址集A_e，利用步骤4中基于地址语义表达的方法进行地址匹配，若没有查找到A_e，则依次按照顺序进行查找，直至找到对应的标准地址集A_i，其中，i取值范围为a至f；

步骤4中包括嵌入阶段、Bi-LSTM阶段、CNN阶段和Attention阶段；

在嵌入阶段将中文地址转化为向量的形式，即将输入地址映射成为固定m×n的矩阵；采用Jieba的分词算法，并且加载自定义分词语料库，其中，分词语料库的构建根据城市地名和地址的特殊性，补充Jieba分词对未识别名称的正确分词；

具体的，地址A由N个词组成，即A＝{a₁,a₂,...,a_N}，对于地址A中的每个词，可以从词向量字典D^w∈R^dw|V|中查找到词向量；其中，V是词表的个数，d^w是词表的维度；词向量字典D^w通过学习获得，词向量的维度d^w根据需求设置；由此，地址A中的词a_i的向量是：e_i＝D^wVⁱ，其中，Vⁱ是一个长度为|V|的向量，其值在e_i处为1，其余处为0；此时，地址A的向量可表示为e＝{e₁,e₂,...,e_T}；