[发明专利]密文全文检索系统有效
申请号: | 201010187384.4 | 申请日: | 2010-05-31 |
公开(公告)号: | CN101859323A | 公开(公告)日: | 2010-10-13 |
发明(设计)人: | 霍林;黄保华;胡和平;覃海生;黄俊文;王力;潘英花;李瑞轩;李德顺;谭颖璐;邢霄;邹先泽 | 申请(专利权)人: | 广西大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广西南宁汇博专利代理有限公司 45114 | 代理人: | 黄萍 |
地址: | 530004 广西壮族自*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 全文 检索系统 | ||
技术领域
本发明属于信息检索和信息安全领域,具体涉及了一种密文全文检索系统及一种基于动态后继树索引结构的密文全文检索系统。
背景技术
随着计算机和通信等信息技术的迅猛发展,电子媒体等各种应用激增,传统行业信息化也快速展开,工业和科研数据自动化和半自动化的产生,使得各种数据大量累积;另一方面存储技术发展的日新月异也使得数据总量的增长势头越来越猛。据统计,二十世纪八十年代以来全世界信息总量以指数级增长。可以说,如今信息产生的速度远远大于人类对这些信息进行充分消化的速度。人们对问题进行有效决策所需要的信息量也大为增加,这就使得用户在海量数据面前想找到自己满意的信息变得越来越困难。在这样的背景下,如果不借助于有效的检索机制,信息量过大所产生的效果与无信息可查的效果是一样的。
全文信息检索技术最早产生于20世纪50年代的美国。1950年Calvin N.Mooers首创了信息检索这个术语,1958年Luhn提出了统计信息检索的基本理论和方法,1960年Marson和Kuhns提出了信息检索的概率模型,1986年Gerard创立了信息检索向量空间模型,1968年Rocchio和Salton共同提出了查询扩展的方法,1972年Lockheed公司推出的DIALOG系统是世界首例商用在线信息查询服务系统。从上个世纪90年代开始,随着廉价海量数据存储设备的成功研发,特别是国际互联网技术的诞生和随之而来的网络信息的爆炸式增长,使信息检索技术进入了一个崭新的发展时期。在这一时期,具有代表性的理论成果包括潜在语义索引技术,贝叶斯网络和神经网技术。
全文检索技术已发展得较为成熟,国外的全文检索软件已较早地得到了应用。虽然中西文全文检索的原理是一致的,但中文本身的特点使得中文全文检索系统要比西文的复杂。国内全文检索技术的研究开始于1987年左右,目前在国内市场占有率超过90%、具有代表性的全文检索系统如易北宝信公司开发的TRS,支持概念检索、多媒体数据检索和原格式文件检索,支持海量存储结构化数据处理,并提供WWW的数据库接口。
索引模型是信息检索的核心技术,对信息检索系统待处理的数据进行高效的组织是进行信息检索的必要前提,索引存储结构影响系统的检索速度和存储空间。当前主要索引模型有:签名文件、倒排文件、位图、Pat树、Pat数组和互关联后继树等。前三种索引模型实质上都是把文档看成索引项的集合,索引数据必须具有文档-索引项结构,因而难以实现复杂查询。Pat树和Pat数组将索引数据看成一组半无限串的叠加,能实现复杂查询,但存在空间开销大等缺点。互关联后继树模型是处理中文等半无限字符串的一种新颖的索引模型,它创建效率高、查询速度快,与Pat树一样具有查询功能全的特点以及比Pat树小的膨胀比等系列优点,但是也存在存储结构、动态索引更新等方面的不足。
目前国内外在基于密文的全文检索领域只有少量研究,通过各著名的大型数据库和搜索引擎检索得到的结果中,在中文的密文全文检索领域,只查到由中国科学院计算机网络研究中心的李新在中国的发明专利申请《密文全文检索技术》(申请号为200410070113.5)和华中科技大学在中国的发明专利申请《分布式密文全文检索系统》(申请号为200910062129.4)等相关研究成果发表。前者的发明是对全文检索技术的改造,几乎保留了全文检索的大部分技术,只对索引文件的索引词进行加密处理;后者实现了在密文条件下的全文信息检索,保证了敏感数据的安全检索,具有安全性强,执行效率高的特点,其索引文件为倒排文件,但不能进行密文子串查询及潜在的分词查询,而且不能进行密文动态更新。
新兴起的对等网络(Peer-to-Peer,P2P)被认为是一种有着更高效、更负载均衡和更好容错性优点的网络,通过P2P网络,大量的计算机可组织在一起形成一个高性能、高可靠性、高扩展性和低消耗的运算整体。由于P2P存储系统面临节点异构性、节点自私性、节点安全性及节点时效性等诸多问题,多数研究集中于搜索和定位机制,忽略了复制机制。在这种网络环境下进行中文全文检索和中文密文全文检索,引入索引文件副本复制机制,是提高检索效率,降低网络消耗和实现分布式节点负载均衡的有效途径。
发明内容
本发明的目的之一,在于提供一种数据安全性高、索引创建速度快、数据检索效率高的密文全文检索系统。
本发明的另一目的,还在于在上述密文全文检索系统的基础上,提供一种基于动态后继树索引结构的密文全文检索系统及其创建、检索方法,该系统支持索引的动态更新,并可以实现密文子串查询。
具体技术方案如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西大学,未经广西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010187384.4/2.html,转载请声明来源钻瓜专利网。