[发明专利]一种地图信息处理的方法、装置和系统有效
申请号: | 200810114464.X | 申请日: | 2008-06-06 |
公开(公告)号: | CN101299217A | 公开(公告)日: | 2008-11-05 |
发明(设计)人: | 刘珊瑞;张阔;茹立云 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 蒋贤起;逯长明 |
地址: | 100084北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地图 信息处理 方法 装置 系统 | ||
技术领域
本发明涉及网络技术领域,特别是涉及一种地图信息处理的方法、装置和系统。
背景技术
各种地名的缩略语在日常生活中被广泛地采用,是由于缩略语很好的符合语言的经济性原则。然而,在地名全称到简称之间,并不存在统一的对应正是因为如此,目前的地图搜索引擎不能自动处理全称简称之间的对应关系,这就造成了大量地图数据的浪费,并进而影响用户体验度。例如:
在搜狗、百度、Google地图中分别输入关键词:
北京理工大学 效果:有北京理工大学对应的位置。
北理 效果:返回数据中无正确结果,北京理工大学这条数据就被浪费。
现有技术中至少存在如下问题:
目前搜索引擎不能自动的处理全简称的对应关系,这项工作只能依靠人工添加全称与简称与之间的对应关系的方式来实现。这样将耗费大量的人力,而且如果一旦存在遗漏,就会造成覆盖不到的情况。也就是说,由于现有的搜索引擎无法自动获取地名的全称与简称的对应关系,会导致以下不足:
1.POI(Point of Interest,兴趣点)数据大量浪费:数据库中大部分POI数据的名称字段存储的是该地点对应的全称,因此若用户使用地点的简称进行查询就很可能找不到任何结果。这就造成了大量POI数据的浪费。
2. 用户体验差:若用户使用地点的简称进行查询,很可能无法获得想要的查询结果,用户会认为该引擎的数据较少,对搜索引擎的评价降低。
发明内容
有鉴于此,本发明一个或多个实施例的目的在于提供一种地图信息处理的方法、装置和系统,以实现自动建立地名的全称与简称的对应关系,使得用户可以直接根据地名的简称搜索得到其感兴趣的数据。
为解决上述问题,本发明实施例提供了一种地图信息处理的方法,包括:
将同一网页锚文本集合中的多个元素两两配对,得到匹配对的集合;所述同一网页锚文本集合为指向同一网页的多个超链接对应的锚文本组成的集合;;
去除锚文本集合中出现在锚文本头部的行政区划名称;
根据所述匹配对集合中各匹配对的相似度,获取相似度的值大于预置阈值的匹配对构成候选全简称匹配对集合;
利用分词去除所述候选全简称匹配对中存在的前缀和/或后缀后,将通过正确性筛选的匹配对输出。
还公开了一种地图信息处理的装置,包括:
匹配单元,用于将同一网页锚文本集合中的多个元素两两配对,得到匹配对的集合;所述同一网页锚文本集合为指向同一网页的多个超链接对应的锚文本组成的集合;
第一去除单元,用于去除锚文本集合中出现在锚文本头部的行政区划名称;
第一选择单元,用于根据所述匹配对集合中各匹配对的相似度,获取相似度的值大于预置阈值的匹配对构成候选全简称匹配对集合;
第二去除单元,利用分词去除所述候选全简称匹配对中存在的前缀和/或后缀;
第二选择单元,用于将通过正确性筛选的匹配对输出。
还公开了一种地图信息处理的系统,包括本发明任一项装置实施例中所公开的装置。
与现有技术相比,本发明实施例具有以下优点:
本发明实施例通过将同一网页锚文本集合中的多个元素两两配对,得到匹配对;去除锚文本集合中的行政区划名称;根据所述匹配对的相似度,选择候选全简称匹配对;利用分词去除所述候选全简称匹配对中存在的前、后缀后,将符合预设阈值条件的数据输出。从而实现了:
首先,通过将锚文本集合中的多个元素两两配对,可以根据匹配对的相似度,作为全称与简称之间相关性高低的参照。
其次,通过利用分词去除候选全简称匹配对中存在的前、后缀,使得建立的全称与简称的对应关系更加准确。也扩大了全简称匹配关系的适用范围,比如:(科技大学,科大),可以同时覆盖(北京科技大学,北科大),(南京科技大学,南科大)。
再次,能够充分利用已有的兴趣点数据,通过建立绝大多数的地名全称与简称的对应关系,可以同时使用查询串的全称和简称进行查询并将返回的结果叠加,解决了兴趣点数据浪费问题。并且相对人工建立全简称匹配关系的方法,自动获取匹配对既节省了时间和成本,又有效扩大了匹配对的覆盖范围。
最后,基于上述优点,明显地提高了用户的体验度。
附图说明
图1所示,是本发明的方法的实施例一的流程图;
图2所示,是本发明的方法的实施例二的流程图;
图3所示,是本发明的装置的实施例一的框图;
图4所示,是本发明的系统的实施例一的框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810114464.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:制备碳纳米管悬壁梁阵列的方法
- 下一篇:一种电信业务生成环境系统