[发明专利]提取地理特征词的方法和装置无效
申请号: | 201010571304.5 | 申请日: | 2010-11-29 |
公开(公告)号: | CN102479230A | 公开(公告)日: | 2012-05-30 |
发明(设计)人: | 罗丽俊;陈文斌;邹中心 | 申请(专利权)人: | 北京四维图新科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静 |
地址: | 100028 北京市朝阳区曙*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提取 地理 特征 方法 装置 | ||
技术领域
本发明涉及数字地图领域,特别是指一种提取地理特征词的方法和装置。
背景技术
现有技术中,地理特征词一般为在通用的词库基础上加上人工整理的有行政区划,道路,乡镇等的地理信息特征词,这种方式获取的地理特征词往往有限,尤其对一些标志性的兴趣点(Point of Interest,POI)特征词很难获取,同时缺少特征词属性,不能为地理信息数据分析提供基石,严重的影响地理信息数据的进一步分析。
发明内容
本发明要解决的技术问题是提供一种提取地理特征词的方法和装置,能够验证与扩展地理特征词,快速的获取地理特征词属性,为地理信息数据分析提供基石,有效提高数据分析的效率。
为解决上述技术问题,本发明的实施例提供技术方案如下:
一方面,提供一种提取地理特征词的方法,包括:
步骤A:根据原始地址数据和名称数据获取第一候选词集合;
步骤B:对所述第一候选词集合进行验证和扩展得到扩展词集合,并对所述扩展词集合中的词进行筛选得到第二候选词集合;
步骤C:判断所述第二候选词集合与所述第一候选词集合的比值大小,若所述比值不大于第一阈值,转向步骤D,否则将所述第二候选词集合替换所述第一候选词集合,并返回步骤B;
步骤D:保存得到的扩展词集合作为地理特征词集合。
其中,所述步骤D还包括:获取所述地理特征词集合中各个地理特征词对应的相关词属性、级别属性、与其它地理特征词之间的所属关系。
其中,所述根据原始地址数据和名称数据获取第一候选词集合包括:
利用标记词对原始地址数据和名称数据进行切分,得到歧义切分词集合A和无歧义切分词集合B,对所述集合A进行去歧义处理得到集合C;
将集合B和集合C合并,并在合并后的集合中过滤掉不符合特征词模式的词,得到第一候选词集合。
其中,所述对所述第一候选词集合进行验证和扩展得到扩展词集合包括:
获得所述第一候选词集合中的候选词在通用的搜索引擎中进行搜索的返回结果,其中所述搜索引擎能返回所述输入词的相关搜索词语组合以及相关搜索标题,并能在所述输入词错误时返回纠正词;
若所述搜索引擎返回纠正词,则将所述纠正词输入扩展词集合;否则对获取的搜索标题进行切分,所获取的词作为第一词集合,将相关搜索词语组合处出现的词进行切分,所获取的词作为第二词集合;
将第一词集合与第二词集合共同出现的词加入扩展词集合,之后计算所述第一词集合中剩下的词的权重、所述第一词集合中剩下的词与所述输入词的编辑距离,挑选符合预设条件的词加入扩展词集合;计算所述第二词集合中剩下的词与所述输入词的编辑距离,挑选符合预设条件的词加入扩展词集合。
其中,所述对所述扩展词集合中的词进行筛选得到第二候选词集合包括:
将所述第一候选词输入已验证词集合中;
从所述扩展词集合中筛选出符合预设模式且不属于所述已验证词集合中的词加入所述第二候选词集合。
本发明实施例还提供了一种提取地理特征词的装置,包括:
第一处理模块,用于根据原始地址数据和名称数据获取第一候选词集合;
第二处理模块,用于对所述第一候选词集合进行验证和扩展得到扩展词集合,并对所述扩展词集合中的词进行筛选得到第二候选词集合;
判断模块,用于判断所述第二候选词集合和所述第一候选词集合的比值与第一阈值的大小;
所述第二处理模块还用于在所述判断模块判断所述比值大于第一阈值时,将所述第二候选词集合替换所述第一候选词集合;
保存模块,用于在所述判断模块判断比值不大于第一阈值时,保存得到的扩展词集合作为地理特征词集合。
其中,所述保存模块还用于获取所述地理特征词集合中各个地理特征词对应的相关词属性、级别属性、与其它地理特征词之间的所属关系。
其中,所述第一处理模块包括:
第一切分子模块,用于利用标记词对原始地址数据和名称数据进行切分,得到歧义切分词集合A和无歧义切分词集合B,对所述集合A进行去歧义处理得到集合C;
合并子模块,用于将集合B和集合C合并,并在合并后的集合中过滤掉不符合特征词模式的词,得到第一候选词集合。
其中,所述第二处理模块包括:
所述第二处理模块包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京四维图新科技股份有限公司,未经北京四维图新科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010571304.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:预存储RDF三元数据的方法和装置
- 下一篇:一种显示方法及终端