[发明专利]一种自学习的中文地址判重方法无效

申请号：	200910095377.9	申请日：	2009-01-12
公开（公告）号：	CN101477570A	公开（公告）日：	2009-07-08
发明（设计）人：	胡天磊;陈珂;陈刚;周佳庆;寿黎但	申请（专利权）人：	浙江大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	杭州求是专利事务所有限公司	代理人：	周烽
地址：	310027浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种自学习的中文地址判重方法。本发明在对中文地址进行判重时，采用自学习的方法。首先处理所有待判重的地址数据，使用规范度计算公式计算出各个地址的规范度，并对符合规范条件的地址提取冗余信息，并计算冗余信息可信度，将可信的冗余信息用于后续的地址数据替换，判重上。本发明方法不依赖领域知识，能够在保证解析精度的前提下，显著降低地址判重中误判和漏判的比例。
搜索关键词：	一种自学习中文地址方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1、一种自学习的中文地址判重方法，其特征在于，包括以下步骤：(1)对所有地址数据进行预处理提取冗余信息的操作。(2)遍历所有待判重的地址，如果出现步骤(1)中取出的冗余数据信息，且该冗余信息为可信冗余对，则将该冗余信息替换为对应的规范数据；对所有替换后的地址进行判重操作。(3)对后续动态增长的待判重地址，遵循对每个地址计算规范度，提取冗余信息并更新冗余信息对，替换冗余信息，判重这个顺序操作。2、根据权利要求1所述的自学习的中文地址判重方法，其特征在于，所述步骤(1)具体步骤如下：(A)地址切分操作：对一个完整的地址数据切分成各级的子地址信息。(B)地址规范度计算：对每一个地址数据计算其规范度信息，具体计算方法为分别计算每级子地址信息的规范度，并权重相加得到整条地址数据的规范度值。对子地址的规范度计算步骤如下：第一步，从已经列入规范的地址数据的对应子域中搜索该值出现的次数；同时分析该子地址结构，若其由更细子域组成，则做二次分级，分别计算每个子域的规范度。规则为出现次数越多，该值越规范。第二步，对子地址信息进行分词，用分词后每个词的平均字数作为标准，平均字数越小意味该子地址词数越少，规范的可能性就越小；第三步，分析子地址字面基本信息，计算该域合法的可能信息。综合以上三步所得规范度信息，若第一步中出现次数大于一阈值，则只使用第一步结果当作该子地址规范度，若小于一阈值，则根据实际情况使用一、二或者一、二、三步结果权重相加来获得该子地址的规范度。(C)对规范度超过一定阈值的地址数据提取冗余信息，保存为{规范数据，冗余数据，出现次数}格式的数据对，方便后期检索。(D)筛选所有冗余格式对，对出现次数超过一定阈值的冗余格式，标为可信冗余对。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200910095377.9/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种自学习的中文地址判重方法无效

专利文献下载