[发明专利]一种在全文检索系统中快速更新数据域的方法有效
申请号: | 200610112797.X | 申请日: | 2006-09-01 |
公开(公告)号: | CN101136013A | 公开(公告)日: | 2008-03-05 |
发明(设计)人: | 杨建武;程羽心;吴於茜;陈晓鸥 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 | 代理人: | 李欣 |
地址: | 100871北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 全文 检索系统 快速 更新 数据 方法 | ||
1.一种在全文检索系统中快速更新数据域的方法,在建索引时,首先判断待建索引内容的数据域是否需要支持快速更新,如需要支持,则采用非倒排结构对数据域进行索引,否则,采用倒排结构进行索引;
在更新时,采用非倒排索引更新该数据域的内容。
2.如权利要求1所述的在全文检索系统中快速更新数据域的方法,其特征在于,在进行检索时,采取以下操作:
1)读取检索条件;
2)将检索条件分解成检索单元,并分别进行以下操作:
A:对支持快速更新的数据域的相关检索单元,通过非倒排索引获得检索单元的结果集;
B:对不支持快速更新的数据域的相关检索单元,采用倒排索引结构进行检索,获得检索单元的结果集;
3)将上述结果进行合并形成检索结果集。
3.如权利要求2所述的在全文检索系统中快速更新数据域的方法,其特征在于,所述非倒排索引为动态索引结构,如:B树或者B+树。
4.如权利要求2所述的在全文检索系统中快速更新数据域的方法,其特征在于,所述非倒排索引为线性索引,在对线性索引的操作中,分别采取增加、查询、修改操作。
5.如权利要求2所述的在全文检索系统中快速更新数据域的方法,其特征在于,所述非倒排索引为动态索引和倒排索引的组合,利用倒排索引结构实现从内容到包含该内容的文档集合的索引,并对文档集合的标识采用动态索引进行组织,具体操作为:
在建索引时:首先利用倒排索引从数据域内容定位到相应的动态索引结构,该动态索引结构保存所有包含该内容的文档标识,然后将当前文档标识加入到动态索引结构中;
在检索时:对支持快速更新的数据域的相关检索单元,通过倒排索引获得相关的动态索引结构,通过动态索引结构获得检索单元的结果集;
在更新时,采用以下步骤:
4.1:在倒排索引中找到相应的动态索引结构;
4.2:从该动态索引结构删除该文档标识;
4.3:在倒排索引中根据数据域的新内容定位找到相应的动态索引结构;
4.4:将当前文档标识加入到该动态索引结构中。
6.如权利要求2所述的在全文检索系统中快速更新数据域的方法,其特征在于,所述非倒排索引为线性索引、动态索引及倒排索引的组合,通过将动态索引结构和倒排索引结构相结合,在全文检索系统中实现对数据域的快速更新,并通过线性索引辅助从文档标识快速找到数据域的原内容并进行删除,具体操作为:
在建索引时:首先利用倒排索引从数据域内容定位到相应的动态索引结构,该动态索引结构保存着所有包含该内容的文档标识,然后将当前文档标识加入到该动态索引结构中,并在线性索引中加入该文档标识与内容的索引关系;
在检索时,对支持快速更新的数据域的相关检索单元,通过倒排索引获得相关的动态索引结构,通过动态索引结构获得检索单元的结果集;
在更新时,采取以下步骤:
5.1:线性索引中根据文档标识找到待更新域的原内容,并替换成新的内容;
5.2:在倒排索引中根据数据域的原内容定位找到相应的动态索引结构;
5.3:从该动态索引结构删除该文档标识;
5.4:在倒排索引中根据数据域的新内容定位找到相应的动态索引结构;
5.5:将当前文档标识加入到该动态索引结构中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司,未经北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610112797.X/1.html,转载请声明来源钻瓜专利网。