[发明专利]中文地址识别系统在审
申请号: | 201810713311.0 | 申请日: | 2018-06-29 |
公开(公告)号: | CN109033225A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 郭文忠;陈立群;郭昆;陈羽中 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种中文地址识别系统,包括:数据预处理模块、地址标准化模块、地址清洗模块、关系构建模块以及地址管理模块。数据预处理模块将源地址数据输入后进行预处理,并粗分成词。地址标准化模块通过Trie树结构与正则匹配方式对有效地址进行十级地址标准化处理。地址清洗模块包括地址补全和地址去重。关系构建模块包括地址标签识别与人群关系构建。地址管理模块包括地址模型管理和地址库管理。本发明通过结合Trie树与有限自动机能有效提高中文地址标准化分级的准确率,对于庞大的地址数据有较快的处理速率,对于相似地址的智能识别也有较高的准确率,并能根据地址信息获取人群关系。 | ||
搜索关键词: | 地址标准化 关系构建 数据预处理模块 地址管理模块 地址识别系统 清洗模块 准确率 中文 预处理 地址信息获取 源地址数据 地址标签 地址模型 地址数据 匹配方式 有效地址 智能识别 地址库 人群 分级 去重 管理 | ||
【主权项】:
1.一种中文地址识别系统,其特征在于,包括:数据预处理模块;将源地址数据输入后进行预处理,并粗分成词;地址标准化模块;对于行政区域地址数据,利用 Trie 树结构寻找标准的前4级地址特征,得到相应行政区域包含的分级标注地址;对于非标准库内的地址数据,使用基于正则匹配的地址分级识别方法,进行关键字提取,使用有限状态自动机按照地址标注等级的跳转规则验证提取后地址的有效性;地址清洗模块;地址清洗模块包括地址补全和地址去重;所述地址补全采用基于相似地址的相应部分进行补全,实现详细地址规范化;所述地址去重对同一人的多个地址进行去重,保留不同的地址以及统计每条地址的使用次数;关系构建模块;关系构建模块包括地址标签识别与人群关系构建;所述地址标签识别将地址通过一API获取其地址标签并存入数据库;所述人群关系构建依据地址标签与人群关系的映射表确定人群关系;地址标签及人群关系构建的结果均存入数据库;地址管理模块;地址管理模块包括地址模型管理和地址库管理;地址模型管理对Trie树模型创建、存储、导入以及查询;地址库管理模块对MongoDB数据库的插入、查询、修改和删除。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810713311.0/,转载请声明来源钻瓜专利网。