[发明专利]一种支持可搜索加密的安全索引结构及其构造方法在审
申请号: | 201710418493.4 | 申请日: | 2017-06-06 |
公开(公告)号: | CN107273467A | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 路松峰 | 申请(专利权)人: | 南京搜文信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F21/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 搜索 加密 安全 索引 结构 及其 构造 方法 | ||
技术领域
本发明涉及计算机信息安全领域,具体涉及一种支持可搜索加密的安全索引结构及其构造方法。
背景技术
信息检索技术至今日已经有五十年左右的发展历史,信息检索的方法也从最初简单的布尔查询,发展到了现在的采用了向量空间、概率方法等数学模型,并且还引入了加权和相关性排序等概念,这些新技术的出现,非常大地提高了信息检索的质量。信息检索技术在互联网中应用得最为广泛的无疑是搜索引擎,国内外已经产生了很多优秀的搜索引擎公司,如Google、百度、雅虎等,他们为人们在信息检索方面提供了很大的便利。搜索引擎主要由五个部分组成,分别是搜索器、分析器、索引器、检索器和用户接口。索引器中会包含一张索引表用于文档检索,目前主流搜索引擎的索引表所采用的形式一般为倒排文档,倒排文档的索引结构具有效率高、准确率高、占用空间小等优点,因此这也是目前信息检索中最为常用的一种索引结构,并在互联网技术中得到了广泛的应用。
信息检索技术的发展为人们提供了极大的便利,但是随着互联网技术的蓬勃发展,信息在网络上受到的安全威胁也在增加,网络安全问题日益突出。在某些场景中,我们出于安全性的考虑,可能需要对信息先进行安全处理再进行检索或者在网络上传输,以防止信息的泄露。但是普通的明文检索的索引文件并没有进行任何加密处理,并且所有信息都是以明文形式处理并在网络上传输的,攻击者在获取索引文件或截取查询信息后可以很容易地进行攻击,显然这样的索引方式在有安全需求的场景下是无法满足其安全性需求的。因此,在这样的场景中我们需要对索引文件及索引方式进行一系列的安全性处理,如对索引信息加密或改变索引结构等方式,以使得其具有一定程度的安全性,达到保护信息安全的目的。
国内外已经有许多学者提出了许多种加密索引的方案以及较为安全的索引结构,以解决安全索引的问题,Eu-Jin Goh在2004年提出了一种采用了陷门单向函数的安全索引机制,该机制是对适应性选择关键字攻击安全的(IND-CKA),他据此构建出了一种称为Z-IDX的安全索引。Dan Boneh 等提出了一种支持关键字查询的公钥加密模式,并且包含了基于身份加密(IBE)的算法。但上述基于陷门单向函数的安全索引的时空开销很大,无法适用。
在中国发明专利说明书CN 200910063738.1中公开了一种基于分块组织的密文索引结构及其管理方法以及在中国发明专利说明书200910061325.X中公开了一种基于密文的安全全文索引和检索系统。上面两个专利提到了建立密文索引结构,其索引结构基于倒排文档方式,无法抵抗统计分析,缺乏安全性。
发明内容
本发明的目的是针对现有技术存在的不足,提供一种适合可搜索加密的安全索引结构及其构造方法。
本发明解决上述问题所采用的技术方案为:
一种支持可搜索加密的密文索引结构,包括sys文件、bf文件、doc文件和seg文件,所述sys文件、bf文件、doc文件和seg文件包含所有索引信息及文档信息;其中:
sys文件包括生成索引时伪随机函数要用到的大素数,索引中的文档数目,bf文件的字节长度,doc文件的字节长度等,sys文件中还包含了一个文档信息列表,其中的每一条文档信息包括了该文档ID、seg文件编号、对应的BloomFilter串在bf文件中的偏移值、文档在doc文件中的偏移值、以及该文档的字节长度,所述BloomFilter串在bf文件中的偏移值与文档在doc文件中的偏移值在查询的时候起到了指针的作用,可以帮助快速的定位到对应的索引信息位置;
doc文件保存文档信息,每一条文档信息包括文档ID、文档名称、文档所包含的域数目、文档的字节长度以及文档包含的域信息列表,所述域信息列表中的每一条域信息包括该域的名称以及在seg文件中的偏移值,所述域在seg文件中的偏移值用来快速查找域内容;
seg文件是存放被索引内容的文件,包括了所有文档的域的内容,seg文件分成多个限定长度的文件分开存储,每个文件以“seg_x”的方式命名,x为分片文件编号,seg文件中的域信息包括域的名称,权值,是否进行索引,是否进行存储,是否进行token化,以及域的文本内容,域被标记为不存储时,则该域内容为空;
bf文件保存了各个文档所对应的Bloom Filter串,单个Bloom Filter串是一系列的01组合,在进行查询的时候,索引通过sys文件找到文档对应的Bloom Filter串在bf文件中所处的位置,将其提取出来以01检验的方式完成校验和查询。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京搜文信息技术有限公司,未经南京搜文信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710418493.4/2.html,转载请声明来源钻瓜专利网。