[发明专利]通讯地址标准化的系统及其方法有效

专利信息
申请号: 201910426629.5 申请日: 2019-05-22
公开(公告)号: CN110210020B 公开(公告)日: 2023-06-20
发明(设计)人: 伍孟轩 申请(专利权)人: 武汉虹旭信息技术有限责任公司
主分类号: G06F40/289 分类号: G06F40/289;G06F40/295;G06F40/242
代理公司: 武汉宇晨专利事务所(普通合伙) 42001 代理人: 黄瑞棠
地址: 430205 湖北省武汉市江*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 通讯地址 标准化 系统 及其 方法
【说明书】:

发明公开了一种通讯地址标准化的系统及其方法,涉及通讯地址技术领域。本系统是:地址接收模块(100)、地址分词模块(200)、词条标准化模块(300)、词条标注模块(400)、词条填补模块(500)、处理未标注词条模块(600)、输出标准化地址信息(700)依次交互;地址分词模块(200)访问数据字典(A);词条标准化模块(300)访问字典映射(B);标注词条模块(400)访问带层级的地址标准库(C)。本发明使用大量的词库对待标准化的文本地址信息进行正向最大匹配分词处理,从而保证了分词的准确性;采用文本推断算法,解决了同名地址被正确标准化的问题;采用标准地址元数据信息词条分级,可快速完成缺省数据地址填补功能。

技术领域

本发明涉及通讯地址技术领域,尤其涉及一种通讯地址标准化的系统及其方法。

背景技术

随着技术的逐渐发展,海量的结构化、半结构化和文本数据中存在大量的地址信息,其中这些地址信息中有一些为标准化的地址数据信息,而还有一部分或者说存在很大一部分为非标准化的信息。由于非标准化的地址信息会为需要通过地址信息辅助进行下一步处理的功能带来极大的不便和负担。比如:地址转换经纬度、快递地址投递以及基于地址信息辅助实现的数据去重功能等。

以目前系统整合过程中数据身份证缺失而导致去重困难为例。单位对各种来源的数据需要进行集中化管理,由于来源于各种不同数据源的数据可能涉及到同一个体的信息,同一个体的多条数据信息可能存在身份证缺失的情况而存在实体地址信息的情况,地址没有通过标准化而利用地址信息辅助去重会导致数据的丢失,所以此种情况下会导致数据无法去重而直接入库从而导致数据库中出现大量的重复数据。在数据量不但积累的情况下,用户搜索出重复记录会逐渐增加,系统会增加用户的使用负担;此外,过多的冗余数据会增加系统压力,浪费过多的硬件资源。然而随着建立数据中心成为必然趋势,借助于标准化的地址信息去重必然也是非常去重过程中一个非常重要的指标。类似其他利用地址信息进一步处理的功能而言,地址标准化也非常重要。因此,将非标准化的通讯地址信息进行准确的标准化,使其能够为数据去重服务的一个非常重要的参考指标已经成为迫不及待解决的问题。

发明内容

本发明的目的就在于克服现有技术存在的缺点和不足,提供一种通讯地址标准化的系统及其方法,使未标准化的通讯地址实现通讯地址标准化,从而将未标准化的通讯地址进行标准化处理后,可为依赖于辅助地址进一步处理的功能提供有力的数据支持。

一、通讯地址标准化的系统(简称系统)

本系统包括地址接收模块、地址分词模块、词条标准化模块、词条标注模块、词条填补模块、处理未标注词条模块、输出标准化地址信息、数据字典、字典映射和带层级的地址标准库;

地址接收模块、地址分词模块、词条标准化模块、词条标注模块、词条填补模块、处理未标注词条模块和输出标准化地址信息依次交互;

地址分词模块访问数据字典;

词条标准化模块访问字典映射;

标注词条模块访问带层级的地址标准库。

二、方法

本方法包括下列步骤:

①地址接收模块接收待处理的地址数据;

②地址分词模块以数据字典为基础对待处理的地址信息使用最大正向文本匹配算法对数据进行切分,并获取词条信息;

③词条标准化模块以循环迭代的方式接收步骤②所获取的词条信息;

词条标准化模块判断地址别名和地址标准化名词是在一一对应关系,如果存在则认为其没有歧义,接着实现词条标准化;

词条标准化模块判断地址别名和地址标准化名不属于一一对应关系,则认为存在歧义,则将存在歧义的数据放入词条歧义容器中;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉虹旭信息技术有限责任公司,未经武汉虹旭信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910426629.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top