[发明专利]基于规则和统计分词的地址差异性判断方法在审
申请号: | 202010331451.9 | 申请日: | 2020-04-24 |
公开(公告)号: | CN111523321A | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 宗阳;高亢 | 申请(专利权)人: | 天津易维数科信息科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/242;G06F40/194 |
代理公司: | 北京市兰台律师事务所 11354 | 代理人: | 呼先军 |
地址: | 300000 天津市滨海新区自贸试验区(东*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 规则 统计 分词 地址 差异性 判断 方法 | ||
1.一种基于规则和统计分词的地址差异性判断方法,其特征在于,包括:
获取全国三级行政区域地址数据;
获取用户输入的用户地址数据,并将该用户地址数据分成省市区三级的行政区域地址和详细地址;
以所述全国三级行政区域地址数据为标准对所述行政区域地址缺省或不标准进行补全或更正处理;
将详细地址进行分词处理;
将补全或更正处理后的行政区域地址数据和进行分词处理后的详细地址数据合并;
通过比较地址数字特征值是否相等以及计算地址文本相似度来判断两个地址是否是同一个地址。
2.根据权利要求1所述的基于规则和统计分词的地址差异性判断方法,其特征在于,通过地址层次词语构建地址层次列表,根据递归算法和基于统计方法来进行分词。
3.根据权利要求2所述的基于规则和统计分词的地址差异性判断方法,其特征在于,将地址分词以后的词典作为列表,通过MinHash来计算地址文本相似度。
4.根据权利要求2所述的基于规则和统计分词的地址差异性判断方法,其特征在于,通过设定七级地址等级关键词进行分词。
5.根据权利要求4所述的基于规则和统计分词的地址差异性判断方法,其特征在于,所述七级地址等级关键词如下:
第一级=['省','市','区','县','村','镇'];
第二级=['路','大道','街','巷','胡同','道','里'];
第三级=['号','弄','期'];
第四级=['园','城','府','苑','墅','馆','寓','城','院','堂','庄'];
第五级=['号','栋','幢'];
第六级=['层','楼','元','座'];
第七级=['室','号']。
6.根据权利要求1所述的基于规则和统计分词的地址差异性判断方法,其特征在于,计算地址文本相似度大于某阈值时判断两个地址为同一个地址。
7.根据权利要求1所述的基于规则和统计分词的地址差异性判断方法,其特征在于,利用正反向最大匹配规则进行详细地址分词处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津易维数科信息科技有限公司,未经天津易维数科信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010331451.9/1.html,转载请声明来源钻瓜专利网。