[发明专利]基于多层优化平衡树的数值与文本混合倒排索引算法无效
申请号: | 201010282299.6 | 申请日: | 2010-09-15 |
公开(公告)号: | CN102402540A | 公开(公告)日: | 2012-04-04 |
发明(设计)人: | 郑益 | 申请(专利权)人: | 浙江天宇信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310006 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多层 优化 平衡 数值 文本 混合 索引 算法 | ||
技术领域
本发明涉及信息检索、数据库管理系统领域,特别是涉及数值与文本混合型数据管理系统中的索引算法。
背景技术
数据库管理系统和搜索引擎技术原本起源于相互独立的应用需求,但是随着实际应用面向的数据中非结构化数据占据比例越来越大,数据库技术和搜索引擎技术在趋向于融合。数据库系统对数值型字段采用B+树索引来提高查询性能,而全文检索系统中使用倒排索引来提高全文查询性能,但传统倒排索引结构仅仅适用于文本。但数据库系统对于文本字段的搜索需求与搜索引擎系统对于数值型字段的查询需求都在与日俱增。
通用的倒排索引结构仅仅对文本进行分词,建立关键词词典,词典是一个包含关键词项的数组。每个关键词项的结构如下:<词文本值,指向倒排列表指针>。倒排列表是一个包含许多倒排项的变长数组。倒排项的结构一般如下:<文献号,偏移量,其他结构信息>。在传统的倒排结构中,通常是把数值类型转换为文本表示后再按文本倒排方法建立索引。但是这种方法,由于改变了数值的实际存储类型,查询条件只能基于数值的文本表示进行字符串比较,无法对数值进行范围比较和精确比较,而且文本比较的性能要明显低于数值比较的性能。
本发明算法对传统的倒排索引结构进行了增强,可以将数值属性的字段按数值格式存储在词典中,并在词典中结合多层平衡树索引,以提高数值类型在倒排索引中的查询性能,实现数值的精确查询和范围查询。
发明内容
本发明的目的在于提供一种面向文本与数值混合数据类型的基于多层优化平衡树倒排索引算法。
本发明的目的是通过以下技术方案来实现的:
1.概述
本小节给出数值与文本混合倒排索引所涉及的术语与背景知识的描述。
给定一个包含N个文档的数据集合,每个文档包含多个文本字段和数值字段(例如价格、日期、年龄等)。在信息检索系统中,文本字段和数值字段都可能出现多值或空值的情况。为便于论述,先假定每个文档的每个数值字段最多仅出现一个值。本发明论述的方法可以方便地扩展到一个数值字段中包含多个值的情形。
考虑可能的数值查询的情况。文本与数值的混合查询中,一般是以全文检索为主条件,辅之以数值查询条件的约束。数值查询可分为精确查询和范围查询。范围查询可以是单边的,定义为[v,∞]或[-∞,v];也可以是双边的,定义为[vmin,vmax]。双边查询是更一般的范围查询方式,因此我们仅仅考虑双边范围查询条件。精确查询可表达为双边的闭区间范围查询,是范围查询的一种特例,因此数值查询条件的讨论可以仅仅考虑范围查询的情形。
在全文检索应用中,数值查询通常只作为过滤条件,而不参与相关度计算;相关度计算以查询条件中的文本查询为依据。
倒排索引结构是全文检索系统中普遍使用索引结构,在许多论文中已有详细描述,因此在本文中不会对倒排索引的一般结构的描述做详尽展开,仅仅给出文本倒排索引结构的简要说明。本发明侧重于研发如何将高效的数值查询整合到一般的文本倒排索引模型中去。
2.普通文本倒排索引结构
文本倒排索引由词典和倒排列表两部分构成。
词典是一个包含关键词项的数组。每个关键词项的结构如下:<词文本值,指向倒排列表指针>。
倒排列表是一个包含许多倒排项的变长数组。倒排项的结构一般如下:<文献号,偏移量,其他结构信息>。
倒排索引一般存放于磁盘等二级存储设备中。
文本字段值通过词法分析切分为多个关键词项,包括关键词的文本值以及所在文献号、字段、字段内偏移量。关键词项先在内存中建立倒排列表,内存中的倒排列表一般是个以词的文本值做哈希影射的哈希表,哈希表项的结构式<词文本值,倒排列表指针>。内存倒排列表满了后就写入磁盘的倒排索引。
3.基于二叉树的数值文本混合型倒排索引结构
考虑在普通文本倒排索引结构的基础上,对数值类型的值进行增强处理,使该结构适用于数值的范围查询。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江天宇信息技术有限公司,未经浙江天宇信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010282299.6/2.html,转载请声明来源钻瓜专利网。