[发明专利]通讯地址标准化的系统及其方法有效
申请号: | 201910426629.5 | 申请日: | 2019-05-22 |
公开(公告)号: | CN110210020B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 伍孟轩 | 申请(专利权)人: | 武汉虹旭信息技术有限责任公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/295;G06F40/242 |
代理公司: | 武汉宇晨专利事务所(普通合伙) 42001 | 代理人: | 黄瑞棠 |
地址: | 430205 湖北省武汉市江*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通讯地址 标准化 系统 及其 方法 | ||
本发明公开了一种通讯地址标准化的系统及其方法,涉及通讯地址技术领域。本系统是:地址接收模块(100)、地址分词模块(200)、词条标准化模块(300)、词条标注模块(400)、词条填补模块(500)、处理未标注词条模块(600)、输出标准化地址信息(700)依次交互;地址分词模块(200)访问数据字典(A);词条标准化模块(300)访问字典映射(B);标注词条模块(400)访问带层级的地址标准库(C)。本发明使用大量的词库对待标准化的文本地址信息进行正向最大匹配分词处理,从而保证了分词的准确性;采用文本推断算法,解决了同名地址被正确标准化的问题;采用标准地址元数据信息词条分级,可快速完成缺省数据地址填补功能。
技术领域
本发明涉及通讯地址技术领域,尤其涉及一种通讯地址标准化的系统及其方法。
背景技术
随着技术的逐渐发展,海量的结构化、半结构化和文本数据中存在大量的地址信息,其中这些地址信息中有一些为标准化的地址数据信息,而还有一部分或者说存在很大一部分为非标准化的信息。由于非标准化的地址信息会为需要通过地址信息辅助进行下一步处理的功能带来极大的不便和负担。比如:地址转换经纬度、快递地址投递以及基于地址信息辅助实现的数据去重功能等。
以目前系统整合过程中数据身份证缺失而导致去重困难为例。单位对各种来源的数据需要进行集中化管理,由于来源于各种不同数据源的数据可能涉及到同一个体的信息,同一个体的多条数据信息可能存在身份证缺失的情况而存在实体地址信息的情况,地址没有通过标准化而利用地址信息辅助去重会导致数据的丢失,所以此种情况下会导致数据无法去重而直接入库从而导致数据库中出现大量的重复数据。在数据量不但积累的情况下,用户搜索出重复记录会逐渐增加,系统会增加用户的使用负担;此外,过多的冗余数据会增加系统压力,浪费过多的硬件资源。然而随着建立数据中心成为必然趋势,借助于标准化的地址信息去重必然也是非常去重过程中一个非常重要的指标。类似其他利用地址信息进一步处理的功能而言,地址标准化也非常重要。因此,将非标准化的通讯地址信息进行准确的标准化,使其能够为数据去重服务的一个非常重要的参考指标已经成为迫不及待解决的问题。
发明内容
本发明的目的就在于克服现有技术存在的缺点和不足,提供一种通讯地址标准化的系统及其方法,使未标准化的通讯地址实现通讯地址标准化,从而将未标准化的通讯地址进行标准化处理后,可为依赖于辅助地址进一步处理的功能提供有力的数据支持。
一、通讯地址标准化的系统(简称系统)
本系统包括地址接收模块、地址分词模块、词条标准化模块、词条标注模块、词条填补模块、处理未标注词条模块、输出标准化地址信息、数据字典、字典映射和带层级的地址标准库;
地址接收模块、地址分词模块、词条标准化模块、词条标注模块、词条填补模块、处理未标注词条模块和输出标准化地址信息依次交互;
地址分词模块访问数据字典;
词条标准化模块访问字典映射;
标注词条模块访问带层级的地址标准库。
二、方法
本方法包括下列步骤:
①地址接收模块接收待处理的地址数据;
②地址分词模块以数据字典为基础对待处理的地址信息使用最大正向文本匹配算法对数据进行切分,并获取词条信息;
③词条标准化模块以循环迭代的方式接收步骤②所获取的词条信息;
词条标准化模块判断地址别名和地址标准化名词是在一一对应关系,如果存在则认为其没有歧义,接着实现词条标准化;
词条标准化模块判断地址别名和地址标准化名不属于一一对应关系,则认为存在歧义,则将存在歧义的数据放入词条歧义容器中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉虹旭信息技术有限责任公司,未经武汉虹旭信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910426629.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于递归神经网络的事件要素抽取方法
- 下一篇:阅读理解方法及装置