[发明专利]面向地址编码的中文地址语义解析方法无效
申请号: | 200810156588.4 | 申请日: | 2008-10-07 |
公开(公告)号: | CN101393544A | 公开(公告)日: | 2009-03-25 |
发明(设计)人: | 张雪英;申琪君;李伯秋;陈文君 | 申请(专利权)人: | 南京师范大学 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27;G06F17/30 |
代理公司: | 南京知识律师事务所 | 代理人: | 程化铭 |
地址: | 210046江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 地址 编码 中文 语义 解析 方法 | ||
1、一种面向地址编码的中文地址语义解析方法,其步骤如下:第一步:根据样本数据,构建地址特征字库
a、建立样本数据:将原始地址数据中的各个地址要素分离出来,形成样本数据;
b、筛选特征字:将样本数据中所有地址要素的最后一个字符和两个字符的频率分别进行统计,并按照由大到小排序;将累积频率占百分比80%以上的单个字符筛选为特征字;将累积频率占80%以上两个字符筛选为特征字,必须最后一个字符不是单特征字;
c、筛选附属特征字;
所筛选的特征字和附属特征字构成了特征字库;
第二步:根据特征字库,按照地址表示规则,将中文地址转换为数字形式的字符串,其中1表示特征字,2表示附属特征字,3表示两个连续重复特征字的后一个字符,0表示普通字符,9表示结束符;将连续的0字符压缩为一个0字符;
第三步:构建地址解析规则库
将中文地址转换为数字串之后,其构成均遵循以下规则:
“0”后只能是“1”、“2”、“9”中的一个数;
“1”后只能是“0”、“1”、“2”、“3”、“9”中的一个数;
“2”后只能是“0”、“1”、“2”、“9”中的一个数;.
“3”后只能是“0”、“1”、“2”、“9”中的一个数;
只能以“0”、“1”、“2”、“3”中的一个数开始;
只能以“9”结束;
按照上述规则,将地址表示为树结构,每一条路径代表一条解析规则,树的第一级节点分别为“0”、“1”、“2”、“3”,其后裔结点按照上述规则来组织;当各条路径到达一定长度时,可以确定地址要素的拆分点,从而终止该路径的继续扩展;同时,每条解析规则规定具体的拆分位置,并用“f+拆分位置”表示;
第四步:语义解析
输入:一条原始地址数据,用Address_Before表示;
A、地址表示:将原始地址转换为数字表示,结果为Numbers_Before,
a、Numbers_Before置为空串;用n表示当前待解析原始地址的长度
b、i从1直到n,循环执行:
如果原始地址的第i个字符为主特征字,则Numbers_Before[i]表示为1;
如果原始地址的第i+1个字符为主特征字,则Numbers_Before[i]表示为3;
如果原始地址的第i个字符为附属特征字,则Numbers_Before[i]表示为2;
如果原始地址的第i个字符为普通字符,则Numbers_Before[i]表示为0;
i赋值为i+1;
结束循环;
c、在Numbers_Before的末尾添加9;
d、将Numbers_Before中的连续多个0压缩为一个0;
B、地址解析:将Numbers_Before根据解析规则拆分为地址要素,结果为Numbers_After;
a、Numbers_After置为空串;用k表示Numbers_before的长度;
b、m从1直到k,执行循环:
如果Numbers_Before的左边m个字符与某条解析规则匹配,则按照规则将Numbers_before拆分左右两个子串;左子串Numbers_Left保存为解析结果中的一个地址要素,不再进行拆分;右子串Numbers-right继续进行拆分;将Numbers_Before定义为Numbers-right;
m赋值为Numbers_Left的长度+1;
否则
m赋值为m+1;
结束循环;
C、地址还原:将数字表示的解析结果还原为与原始地址对应的字符串,结果为Address_After。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京师范大学,未经南京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810156588.4/1.html,转载请声明来源钻瓜专利网。