[发明专利]一种地名识别方法和装置有效
申请号: | 201110458103.9 | 申请日: | 2011-12-30 |
公开(公告)号: | CN103186524A | 公开(公告)日: | 2013-07-03 |
发明(设计)人: | 邓小波 | 申请(专利权)人: | 高德软件有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明 |
地址: | 102200 北京市昌*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地名 识别 方法 装置 | ||
1.一种地名识别方法,其特征在于,包括:
对待识别的字符串进行分词得到候选词;
获取各候选词在地址名称库中的所属类别;
对各候选词进行遍历,若当前候选词的所属类别为第一类别,则将当前候选词作为地名添加到候选地名集合;
若当前候选词的所属类别为第二类别,则对当前候选词以及在所述地址名称库中与当前候选词临近的候选词进行组合得到合成词,并将所述合成词作为地名添加到候选地名集合。
2.根据权利要求1所述的方法,其特征在于,所述对各候选词进行遍历包括:
按照所述字符串的自然语序从所述各候选词中选择最后一个候选词;
从所述最后一个候选词开始,按照从后至前的顺序依次遍历各候选词。
3.根据权利要求1所述的方法,其特征在于,所述第一类别为行政区划前缀;所述候选地名集合为候选地名列表。
4.根据权利要求1所述的方法,其特征在于,所述第二类别为行政区划后缀、地址后缀、名称后缀中的任意一种;所述候选地名集合为候选地名列表。
5.根据权利要求4所述的方法,其特征在于,所述对当前候选词以及在所述地址名称库中与当前候选词临近的候选词进行组合得到合成词包括:
若候选地名列表为空,且所述当前候选词的第一临近词和第二临近词存在于所述地址名称库中,则:
若第一临近词为单字词,且第二临近词为特殊边界词,则将第一临近词与当前候选词进行组合得到组合词;
或者,
若第一临近词为多字词,则将第一临近词与当前候选词组合得到组合词;
或者,
若第二临近词不为特殊边界词,或第一临近词不为多字词,则按照所述字符串的自然语序的倒序将当前候选词与其前面一直到非边界词之前的候选词组合得到组合词;
所述第一临近词为在所述字符串的自然语序中,以当前候选词为参照的前面的第一个候选词;
所述第二临近词为在所述字符串的自然语序中,以当前候选词为参照的前面的第二个候选词。
6.根据权利要求4或5所述方法,其特征在于,所述方法还包括:
将加入候选地名列表中的地名的终结标记设置为第一标识。
7.根据权利要求6所述方法,其特征在于,若当前候选词既不属于第一类别,也不属于第二类别,则:
1)判断所述当前候选词是否属于第三类别,若属于第三类别,则执行步骤2),若不属于第三类别,则执行步骤3);
2)判断候选地名列表是否为空,若不为空,则将所述候选地名列表中最后一个地名的终结标记置为第二标识,若为空,则执行步骤3);
3)判断当前候选词是否为数词,若为数词,则判断数词长度是否小于第一阈值,若小于第一阈值,则将所述数词追加至候选地名列表的最后一个地名,若不小于第一阈值,或者当前候选词不为数词,则执行步骤4);
4)判断当前候选词是否为保留性数量词,若是保留性数量词,则判断候选地名列表是否为空,若不为空,则判断候选地名列表的最后一个地名是否为道路其终结标记是否为第一标识,若是,则将该保留性数量词追加至候选地名列表的最后一个地名,并将其终结标记置为第二标识。
8.根据权利要求7所述的方法,其特征在于,所述第三类别为方位分隔词、标点符号、过滤性数量词中的任意一种。
9.根据权利要求1至5中任一项所述的方法,其特征在于,当所述候选地名集合不为空时,所述方法还包括:
对于所述候选地名集合中的每一个地名,进行如下处理:
若该地名为道路或名称,且该地名与其前一个地名之间的间隔为0,且其前一个地名为行政区划,则保留该地名;
或,
将候选地名集合中的地名的非后缀部分按照自然语序从前至后的顺序移除标注为方位分隔词、标点符号、边界词、特殊边界词、姓氏、姓名左搭配、姓名右搭配、姓名左右搭配或者是长度小于第一阈值的数词,若移除后仅剩下后缀,则将该地名从候选地名集合中删除;
或,
若候选地名集合中的地名以姓氏开头,且其前后出现姓名左搭配、姓名右搭配或姓名左右搭配的情况,则将该地名删除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于高德软件有限公司,未经高德软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110458103.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种显示波形的软件滤波方法
- 下一篇:双向排版方法和设备