[发明专利]一种POI的容错搜索方法有效
申请号: | 201010272956.9 | 申请日: | 2010-08-31 |
公开(公告)号: | CN102385597A | 公开(公告)日: | 2012-03-21 |
发明(设计)人: | 胡涛;季刚;时宜;程行荣 | 申请(专利权)人: | 厦门雅迅网络股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 厦门市新华专利商标代理有限公司 35203 | 代理人: | 朱凌 |
地址: | 361009 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 poi 容错 搜索 方法 | ||
技术领域
本发明属于信息检索技术领域,尤其涉及一种POI(兴趣点)的容错搜索方法。
技术背景
当前社会信息的快速增长给人们的生活带来的巨大的变化。人们身边都充斥着大量的信息,在这些海量信息中快速找到需要的信息,将很大程度地提高人们的工作效率。信息检索技术的出现,逐步满足了人们的要求。
信息检索一词出现于20世纪50年代,又称为信息存储与检索或者情报检索,是指将信息按照一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术。也就是说,包括“存”和“取”两个环节和内容,狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找到所需要的信息的过程,也就是我们常说的信息查询(Information Search或Information Seek)。
信息检索的主要环节如下:
信息内容分析和编码,产生信息记录及检索标识;
组织存储,将全部记录按照文件、数据库等形式组成有序的信息集合;
用户提交搜索请求,搜索和检索结果的输出。
关键部分是信息提问和信息集合的匹配和选择,即对给定检索请求与集合中的记录进行相似性比较,根据一定的匹配标准选出有关信息。
POI(兴趣点)搜索是导航产品中重要的组成部分,而POI的数量达到了千万,面对如此巨大的信息量,需要使用信息检索技术来组织和检索POI的信息。
通常,POI的原始数据由地图厂商提供,我们根据导航产品的实际情况重新组织和存储数据,建立索引文件。
传统的检索技术基于关键词匹配进行检索,往往存在查不全,查不准,检索质量不高的现象。特别是在POI检索方面,用户在导航之前需要查找目的地,而往往用户在需要导航的时候,经常是在一个陌生的地方,当查找某个POI的时候,用户很可能并不知道POI准确的名字,这就增加了用户输入错误关键字的可能性。传统的方法只根据用户输入的关键字去搜索,很可能得不到用户想要的结果,
发明内容
本发明的目的在于提供一种当用户输入与POI信息发音相同或相似的错误关键字时,仍能返回满足用户要求的POI结果的容错搜索方法。
本发明一种POI的容错搜索方法,是在习有的汉字分词索引的基础上建立全拼索引,只有在输入的汉字关键字通过汉字分词索引出现无搜索结果的时侯,进一步将关键字转换成对应的全拼组合,利用全拼索引搜索算法查找出与所述关键字拼音相同或相似的POI结果。
所述的建立全拼索引,就是根据GBK字库统计出汉字标准发音的种类,并将该标准发音按照字典排序方式排序,形成全拼索引项表;然后查看POI信息中各个汉字的发音,如果汉字的发音与全拼索引项表中某个发音相同,就将此POI信息的编号插入到全拼索引项表对应发音的表中,依次建立POI全拼索引。
所述的全拼索引搜索算法,就是分别将全拼组合中每个字的拼音与全拼索引项表进行匹配,获得包含POI信息的索引号,再取交集得到包含POI结果的索引号,并计算POI结果的权值,将这个权值作为排序的依据。
所述的POI结果的权值的计算方法如下:
如果检索出来的POI结果名字的全拼和关键字的全拼完全匹配,则此POI结果的权值为1;
如果检索出来的POI结果名字的全拼和关键字的全拼前缀匹配,则此POI结果的权值为2;
如果关键字的全拼在POI结果名字的全拼中的中间或者后缀,则此POI结果的权值为3;
如果关键字的全拼在POI结果名字的全拼中都有,并且是按照顺序排序的,这样的POI结果的权值就是4;
如果关键字的全拼在POI结果名字的全拼中都有,但先后顺序不同,这样的POI结果的权值为5;
最后,按照POI结果的权值从1至5进行排序。
本发明一种POI容错搜索方法,是在习有的汉字分词索引的基础上建立全拼索引,只有在用户输入的汉字关键字通过汉字分词索引出现无搜索结果的时候,进一步将该关键字转换成对应的全拼组合,利用全拼索引查找出与所述关键字拼音相同或相似的POI结果;本发明弥补了传统搜索算法的不足,能够在用户错误输入搜索关键字的同音字的情况下,仍然可以返回满足用户要求的结果,提高了POI搜索的容错能力。
附图说明
图1为本发明中倒排文件索引结构;
图2为本发明的流程示意图。
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门雅迅网络股份有限公司,未经厦门雅迅网络股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010272956.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于文件数据库的里程数据统计处理方法和系统
- 下一篇:伸展用垫