[发明专利]复杂地址中多条路径的分析方法有效

专利信息
申请号: 201510310107.0 申请日: 2015-06-08
公开(公告)号: CN104899296B 公开(公告)日: 2018-05-29
发明(设计)人: 王明兴;贾西贝 申请(专利权)人: 深圳市华傲数据技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京酷爱智慧知识产权代理有限公司 11514 代理人: 赵永辉
地址: 518057 广东省深圳市南山区高新区中*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 地址路径 多条路径 复杂地址 标注 初始化 标签 分析 输入地址 预先定义 分出 返回
【说明书】:

发明涉及一种复杂地址中多条路径的分析方法。该方法包括:步骤10、预先定义标注标签所对应标注的地址词的级别;步骤20、对输入地址进行切分与标注;步骤30、初始化一新的地址路径;初始化标注标签为其他的地址词的数量otherNum为0,初始化上一个地址词的级别prevLevel;步骤40、按序分析每个地址词的标注标签;步骤50、获取当前地址词的级别curLevel,判断当前地址词是否是新的地址路径的开始;步骤60、如果出现新的地址路径,添加当前地址词至该新的地址路径;步骤70、如果未出现新的地址路径,当前地址词添加到当前地址路径中;步骤80、返回步骤40,直至所有地址词处理完成。本发明的复杂地址中多条路径的分析方法能够从复杂地址中识别与拆分出多条路径。

技术领域

本发明涉及数据处理技术领域,尤其涉及一种复杂地址中多条路径的分析方法。

背景技术

人们在填写收件人地址、办公地址、家庭住址等地址信息时一般都是将省、市、区、门牌号、住宅小区、房间号等信息写在一起组成地址信息,如“广东深圳南山区高新中一道9号科技园软件大厦713”,这种写法适合人工识别,而当通过机器识别地址的结构化细节信息时首先要做的处理就是分词与标注,将输入的长文本切分成一个一个的地址词,并对地址词的属性按照标注标签进行标注,如上例地址信息的分词标注结果可能为:“广东/省深圳/市南山区/区高新中一道/道路9号/路号科技园/片区软件大厦/楼栋713/房间”。现有分词标注技术中应用的比较成熟的是基于统计的方法,例如,隐马尔可夫模型(HMM)的分词标注技术就是一种典型的基于统计模型的分词标注方法。

由于人们填写地址的随意性,给机器处理地址带来很大的不便。其中一种问题就是一条地址可能包含多个地址实体,如某公司地址存在多个办公场所:“深圳市南山区软件大厦713科兴科学园A座1-501”,或描述地址中带有辅助信息:“深圳市南山区软件大厦旁科兴科学园A座1-501”等。二个例子中都包含两个独立建筑实体“软件大厦”和“科兴科学园”,两者间隔一条马路。为了处理这种情况,亟需一种方案能够将复杂地址中独立的建筑实体拆分成不同的地址路径进行处理,如:从“深圳市南山区软件大厦713科兴科学园A座1-501”中分析出“深圳市南山区软件大厦713”、“深圳市南山区科兴科学园A座1-501”。

发明内容

本发明的目的在于提供一种复杂地址中多条路径的分析方法,解决复杂地址中多条路径的识别与拆分问题。

为实现上述目的,本发明提供一种复杂地址中多条路径的分析方法,包括:

步骤10、预先定义标注标签所对应标注的地址词的级别;

步骤20、对输入地址进行切分与标注,切分标注结果包括地址词及对应的标注标签;

步骤30、初始化一新的地址路径;初始化标注标签为其他的地址词的数量otherNum为0,初始化上一个地址词的级别prevLevel;

步骤40、按序分析每个地址词的标注标签,如果为其他,则otherNum加1,直至当前地址词的标注标签不为其他;

步骤50、获取当前地址词的级别curLevel,根据otherNum的值或者根据prevLevel和curLevel之间的关系判断当前地址词是否是新的地址路径的开始;

步骤60、如果出现新的地址路径,初始化一新的地址路径并添加当前地址词至该新的地址路径;

步骤70、如果未出现新的地址路径,当前地址词添加到当前地址路径中;

步骤80、设置otherNum为0,返回步骤40,直至所有地址词处理完成。

其中,所述标注标签包括省、市、区、街道、社区、道路、路号、片区、楼栋、房间,还包括用于标注用前述标注标签无法标明的地址词的其他。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市华傲数据技术有限公司,未经深圳市华傲数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510310107.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top