[发明专利]一种地图信息处理的方法、装置和系统有效
申请号: | 200810114464.X | 申请日: | 2008-06-06 |
公开(公告)号: | CN101299217A | 公开(公告)日: | 2008-11-05 |
发明(设计)人: | 刘珊瑞;张阔;茹立云 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 蒋贤起;逯长明 |
地址: | 100084北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地图 信息处理 方法 装置 系统 | ||
1.一种地图信息处理的方法,其特征在于,包括:
将同一网页锚文本集合中的多个元素两两配对,得到匹配对的集合;所述同一网页锚文本集合为指向同一网页的多个超链接对应的锚文本组成的集合;
去除锚文本集合中出现在锚文本头部的行政区划名称;
根据所述匹配对集合中各匹配对的相似度,获取相似度的值大于预置阈值的匹配对构成候选全简称匹配对集合;
利用分词去除所述候选全简称匹配对中存在的前缀和/或后缀后,将通过正确性筛选的匹配对输出。
2.如权利要求1所述的方法,其特征在于,在所述根据所述匹配对集合中各匹配对的相似度,获取相似度的值大于预置阈值的匹配对构成候选全简称匹配对集合之前,还包括:
从所述锚文本集合去除与地名无关网页的锚文本集合。
3.如权利要求1所述的方法,其特征在于,所述行政区划包括:省、自治区、市、县、乡、村、街道、区、行署、特别行政区。
4.如权利要求1所述的方法,其特征在于,所述根据所述匹配对集合中各匹配对的相似度,获取相似度的值大于预置阈值的匹配对构成候选全简称匹配对集合具体为:
使用相似度函数计算所述匹配对集合中各匹配对的相似度,获取相似度的值大于预置阈值的匹配对构成候选全简称匹配对集合。
5.如权利要求1所述的方法,其特征在于,所述将通过正确性筛选的匹配对输出具体为:
将所述去除前缀和/或后缀的所述候选全简称匹配对集合中,出现次数和/或,点击次数超过预设第一阈值的候选全简称匹配对,作为全简称匹配对输出;和/或,
将所述去除前缀和/或后缀的所述候选全简称匹配对集合中,候选全简称匹配对中简称串的文字在全称串中出现的分散程度高于预设第二阈值的候选全简称匹配对,作为全简称匹配对输出。
6.如权利要求1所述的方法,其特征在于,在所述将通过正确性筛选的匹配对输出之后,还包括:
将用户输入进行分词处理;
如果所述分词结果对应全简称匹配对中的全称串,则输出所述全简称匹配对中的简称串;
如果所述分词结果对应全简称匹配对中的简称串,则输出所述全简称匹配对中的全称串。
7.如权利要求2所述的方法,其特征在于,从所述锚文本集合去除与地名无关网页的锚文本集合具体为:
抽取所有已有的兴趣点名称后缀,建立关键字列表;
根据所述关键字列表,去除与地名无关网页的锚文本集合。
8.如权利要求4所述的方法,其特征在于,所述相似度函数具体为:
9.一种地图信息处理的装置,其特征在于,包括:
匹配单元,用于将同一网页锚文本集合中的多个元素两两配对,得到匹配对的集合;所述同一网页锚文本集合为指向同一网页的多个超链接对应的锚文本组成的集合;
第一去除单元,用于去除锚文本集合中出现在锚文本头部的行政区划名称;
第一选择单元,用于根据所述匹配对集合中各匹配对的相似度,获取相似度的值大于预置阈值的匹配对构成候选全简称匹配对集合;
第二去除单元,用于分词去除所述候选全简称匹配对中存在的前缀和/或后缀;
第二选择单元,用于将通过正确性筛选的匹配对输出。
10.如权利要求9所述的装置,其特征在于,还包括:
第三去除单元,用于在所述第一选择单元根据所述匹配对集合中各匹配对的相似度,获取相似度的值大于预置阈值的匹配对构成候选全简称匹配对集合之前,从所述锚文本集合去除与地名无关网页的锚文本集合。
11.如权利要求9所述的装置,其特征在于,所述行政区划包括:省、自治区、市、县、乡、村、街道、区、行署、特别行政区。
12.如权利要求9所述的装置,其特征在于,所述根据所述匹配对集合中各匹配对的相似度,获取相似度的值大于预置阈值的匹配对构成候选全简称匹配对集合具体为:
使用相似度函数计算所述匹配对集合中各匹配对的相似度,获取相似度的值大于预置阈值的匹配对构成候选全简称匹配对集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810114464.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:制备碳纳米管悬壁梁阵列的方法
- 下一篇:一种电信业务生成环境系统