[发明专利]一种支持含有缺失符号的查询请求的全文检索方法有效
申请号: | 201210153267.5 | 申请日: | 2012-05-16 |
公开(公告)号: | CN102722527A | 公开(公告)日: | 2012-10-10 |
发明(设计)人: | 孟必平;王腾蛟;李红燕;高军;杨冬青;唐世渭 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 含有 缺失 符号 查询 请求 全文 检索 方法 | ||
技术领域
本发明属于信息技术领域,涉及一种检索方法,尤其涉及一种基于轮转索引的全文检索方法,能够对含有缺失符号的查询请求给出快速响应。
背景技术
随着电子信息化的发展,计算机所管理的电子化数据正在以前所未有的速度发展。从数据结构的角度看,可以将这些数据分为结构化数据和非结构化数据两类。结构化数据是指拥有预定义的数据模型的数据,包括航班时刻表、雇员信息表等;非结构化数据是指没有预定义的数据模型的数据,往往以大量文本内容为主体。随着万维网的发展,非结构化数据正在以疯狂的速度增长。
传统的关系型数据库管理系统能够很好的管理结构化数据。但对于非结构化数据,由于数据模式的缺失,关系型数据库管理系统很难有效管理其数据内容。非结构化数据往往以包含大量文本内容为特点。由于结构化信息与文本内容上的检索任务存在很大区别。前者往往拥有确定的值域范围,值域中的取值是查询条件可访问的最小单元(即通常情况下不会讲值域中的某个取值拆分为更小的部分来组成查询条件),取值可以比较大小,而且查询条件常常以比较形式给出,例如时间戳、用户ID、用户个人信息中的性别项等等。后者往往拥有不可预期的长度,各段文本之间基于ASCII编码而进行的大小比较在很多情况下没有太大实际意义,取值之间可能存在包含关系(即一段文本被包含于另一段文本中),查询条件往往以是否包含一段给定的子文本段的方式而提出,该查询条件中甚至可能包含不确定的或缺失的字符,例如用户在Twitter网站上所发表的微博(被转发的微博将被包含于转发微博中)、电子邮件内容(匹配特定的文本段以发现Spamming行为)。传统的结构化数据上的索引技术对非结构化数据并不适用。全文检索技术是能够为非结构化数据上的检索请求提供快速响应的一类有效的检索方法。
由于文本内容的不确定性以及查询者所掌握的知识的不完整性,用户常常需要在查询中表达一定程度的不确定性。最常用的表达方式就是以缺失符号的方式表示查询中不确定的词。如果查询者没有掌握足够多的知识,就可能考虑使用缺失符号“”来代替其不了解的内容。例如,“北京是_的首都”。检索系统在处理这样的查询时,应当返回该缺失符号匹配任意词的情况下查询命中的结果。例如,被检索文本中所包含的“北京是中华人民共和国的首都”、“北京是中国的首都”以及“北京是祖国的首都”等句子片段都应当能够匹配上述带有缺失符号的查询请求,因而,都应当被返回为查询结果。
倒排索引(Inverted Index)是一种在信息检索(Information Retrieval)领域被深入研究了的基本的关键字检索技术。得益于其少量的空间占用和对单个关键字的优秀的检索性能,倒排索引已经在在线系统中被广泛使用。在处理多关键字查询请求时,传统方法通过对后缀表(posting list)取交集的方式来获取最终结果。然而,这种方法在处理大匹配集的交集时会面临严重的效率问题:试想,将两个频繁地出现的关键字的非常长的后缀表求交集的代价可能是某些规模较小的在线系统所不能忍受的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210153267.5/2.html,转载请声明来源钻瓜专利网。