[发明专利]基于规则的地址信息匹配方法在审
申请号: | 201210189409.3 | 申请日: | 2012-06-11 |
公开(公告)号: | CN102750351A | 公开(公告)日: | 2012-10-24 |
发明(设计)人: | 崔传德;于志华 | 申请(专利权)人: | 迪尔码国际营销服务(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100027 北京市东*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 规则 地址 信息 匹配 方法 | ||
技术领域
本发明属于计算机的信息匹配和检索技术,具体涉及用于地址检索、地址标准化、地址匹配和地址清洗等的基于规则的地址信息匹配方法。
背景技术
在计算机的数据处理中,有很对针对地址的分析和应用,因为数据来源的不同,针对同一地址的描述往往很难一致。这就给地址的分析和处理产生了很大的麻烦。这就需要有一个工具把录入的地址转换成标准的地址。在进行地址转换匹配中需要解决诸多问题,因为我国地域广阔而地址名称也是多种多样,造成了匹配精度较低的现状。其主要原因包括地址数量大而地址的精确性低,以及地址重名较多。例如张自忠路,北京、上海、天津等中国很多城市都有该地址名称。省略和别名也较多,例如北京市,地址描述时候常常把市给省略掉。另外地址信息中还通常包含其它信息,例如写地址的时候经常搀杂一些其它的信息,包括公司的名字,有时候还有姓名和电话号码。另外,地址的异化问题包括习惯称呼、名称改变、名称重叠和同音字错误、简繁字体差异等也会带来地址匹配的错误。
为解决上述问题,需要建立庞大的地址库以减小地址匹配差异,目前针对地址库过大的问题通常都是从硬件上去解决。例如使用性能更好的计算机,或者使用性能更好的数据库。但带来的后果首先是成本的问题,另外硬件的改善对于地址匹配缺陷的改变还是非常有限。
发明内容
本发明提供了一种匹配精度高、速度快的基于规则的地址信息匹配方法,其采用较为小型的地址库和配置的多类型数据库有效地解决了地址异化问题,避免了地址名称变更、习惯称呼、地址名重叠、错别字等各种影响地址词条匹配问题,实现了精确和快捷的正确地址信息匹配。
本发明所采用的技术方案如下:
一种基于规则的地址信息匹配方法,其特征在于所述地址信息匹配方法包括:
根据录入的地址信息进行切词,将切词后得到的地址词条在地址库中进行词条匹配,并将匹配的地址词条添加到地址链路中,并在地址链路中选择一个最佳匹配的结果输出。
具体实施方式中,所述匹配方法进一步包括:
所述地址库包括一标准地址库,该标准地址库以树状结构建立,所述每一树状结构的节点建立索引,所述地址库中的中文和数字采用相匹配的压缩形式。
一实施方式中,所述地址库还包括一别名地址库,别名地址库包括同一地址的习惯称呼、历史名称、简称和特称信息。
一实施方式中,所述匹配方法进一步包括:
所述切词后得到的地址词条先在所述标准地址库中进行词条匹配,然后再于别名地址库中进行词条匹配,然后选择一匹配的地址词条添加到地址链路中。
一实施方式中,所述匹配方法进一步包括:
所述切词后得到的地址词条进行错别字纠正,然后用纠正后的地址词条在地址库中进行词条匹配。
另一实施方式中,所述错别字纠错包括音近字错别字纠错和形近字错别字纠错;所述音近字错别字纠错包括利用拼音建立汉字之间的关系,在进行词条匹配时如无法在地址库中,用音近字代替当前汉字在地址库中重新进行词条匹配;所述形近字错别字纠错包括建立形近字字库,在形近字字库中将汉字按字形分组,在进行词条匹配时,汉字在其字形分组内替代匹配。
一实施方式中,所述匹配方法进一步包括:
在地址库中建立邮编与地址的关联,进行词条匹配前,根据地址词条找出匹配对应的邮编;如果输入地址包含邮编信息,则先根据邮编对应的区域范围,缩小地址查找区域。
一实施方式中,所述地址库还包括一组织机构数据库,该组织机构数据库将组织机构名称拆分为关键字和修饰词;
所述匹配方法包括:对录入的地址信息与组织机构数据库进行词条匹配,首先与所述关键字进行词条匹配,再与修饰词进行词条匹配,然后将词条匹配的结果作为一临时结果,再进行全地址的词条匹配,最后拟合地址与组织机构匹配的结果,并选择一结果输出。
再一实施方式中,所述匹配方法进一步包括:
创立一繁体和简体文字转换表,在进行词条匹配前,先将发现的繁体字依据繁体和简体文字转换表转换为简体字。
该基于规则的地址信息匹配方法通过将切词后的地址词条进行地址库匹配,并根据匹配信息进行匹配后的地址词条的地址链路添加。地址库包括采用树状结构建立的标准地址库,每树状结构的标准地址库能够有效地减少地址数据的重复描述情况,通过对树状结构的每一个节点建立索引,能够加快地址检索和匹配的速度;而根据中文文字和数字的差异选择压缩技术,能够减小数据库的大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于迪尔码国际营销服务(北京)有限公司,未经迪尔码国际营销服务(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210189409.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:肺通气功能障碍演示模型
- 下一篇:一种用于测试漏电断路器的测试设备
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置