[发明专利]中文地址识别系统在审

专利信息
申请号: 201810713311.0 申请日: 2018-06-29
公开(公告)号: CN109033225A 公开(公告)日: 2018-12-18
发明(设计)人: 郭文忠;陈立群;郭昆;陈羽中 申请(专利权)人: 福州大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 福州元创专利商标代理有限公司 35100 代理人: 蔡学俊
地址: 350108 福建省福*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 地址标准化 关系构建 数据预处理模块 地址管理模块 地址识别系统 清洗模块 准确率 中文 预处理 地址信息获取 源地址数据 地址标签 地址模型 地址数据 匹配方式 有效地址 智能识别 地址库 人群 分级 去重 管理
【权利要求书】:

1.一种中文地址识别系统,其特征在于,包括:

数据预处理模块;将源地址数据输入后进行预处理,并粗分成词;

地址标准化模块;对于行政区域地址数据,利用 Trie 树结构寻找标准的前4级地址特征,得到相应行政区域包含的分级标注地址;对于非标准库内的地址数据,使用基于正则匹配的地址分级识别方法,进行关键字提取,使用有限状态自动机按照地址标注等级的跳转规则验证提取后地址的有效性;

地址清洗模块;地址清洗模块包括地址补全和地址去重;所述地址补全采用基于相似地址的相应部分进行补全,实现详细地址规范化;所述地址去重对同一人的多个地址进行去重,保留不同的地址以及统计每条地址的使用次数;

关系构建模块;关系构建模块包括地址标签识别与人群关系构建;所述地址标签识别将地址通过一API获取其地址标签并存入数据库;所述人群关系构建依据地址标签与人群关系的映射表确定人群关系;地址标签及人群关系构建的结果均存入数据库;

地址管理模块;地址管理模块包括地址模型管理和地址库管理;地址模型管理对Trie树模型创建、存储、导入以及查询;地址库管理模块对MongoDB数据库的插入、查询、修改和删除。

2.根据权利要求1所述的中文地址识别系统,其特征在于,所述数据预处理模块对输入的邮递源地址数据进行去除噪声地址、去除地址中的特殊符号处理,排除无效或是不可识别的地址,然后再由HanLP切词工具将余下的有效地址粗分成词。

3.根据权利要求1所述的中文地址识别系统,其特征在于,所述地址标准化模块通过Trie树结构与正则匹配方式对有效地址进行十级地址标准化处理,包括:前四级的标准行政地址的标准化和后六级的详细地址的标准化;通过对标准的四级地址分词构建Trie树,输出Trie树模型并保存到数据库中;对于输入的待分级识别的样本数据,通过分词再导入Tire树模型进行模糊匹配识别出前四级的标准行政地址,而后再导入有限状态自动机进行正则匹配出后六级的详细地址,最后合并输出地址的十级标注。

4.根据权利要求3所述的中文地址识别系统,其特征在于,所述前四级的标准行政地址利用识别搜索算法在Trie树中进行识别,所述识别搜索算法按照如下步骤实现:

步骤S1:输入分词后的样本数据地址段;

步骤S2:根节点放入队列;

步骤S3:判断当前队列是否为空;若不为空,转步骤S4;否则转步骤S10;

步骤S4:取出队首元素,并判断其是否有子节点;若有,转步骤S5;否则转步骤S3;

步骤S5:遍历一个子节点,判断子节点的值是否与当前地址段匹配;若匹配,转步骤S6;否则,转步骤S7;

步骤S6:判断当前是否是第一个地址段,并且与之匹配上的是第三级或第四级的地址,若是,将该节点存入一个list中,转步骤S7,否则,转步骤S8;

步骤S7:将当前节点的所有子节点放入队列中,转步骤S9;

步骤S8:判断上一步是否匹配到多个结果,并且与之匹配到的是第四级地址;若是,更新list,转步骤S9;否则,清空当前队列,再将当前节点加入队列,转步骤S3;

步骤S9:判断当前元素是否为最后一个子节点;若是,转步骤S3;否则,转步骤S5;

步骤S10:从list中找出地址级别最大的节点,依次向上找出其父节点,得到匹配完的前四级结果;

步骤S11:判断以上结果中是否包含null,并且剩余地址段是否存在前四级地址;若是,转S12,否则输出结果;

步骤S12:将剩余地址再次进行树匹配,将再次匹配的结果与原结果进行比较;若再次匹配得到的结果包含了原结果,那么更新这个结果,并输出。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810713311.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top