[发明专利]一种针对密文域的形近汉字全文模糊检索方法有效
申请号: | 201810121448.7 | 申请日: | 2018-02-07 |
公开(公告)号: | CN108334612B | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 吴翊铭;赵搏文;唐韶华 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F40/289;H04L9/40 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 密文域 汉字 全文 模糊 检索 方法 | ||
1.一种针对密文域的形近汉字全文模糊检索方法,其特征在于,所述的方法包括下列步骤:
S1、生成倒排索引,利用分布式搜索引擎Lucene和中文分词器IKAnalyzer对待上传的文档集合进行全文分词,获取待上传文档集合的明文倒排索引,通过分析常用中文的形近字构建中文形近字字典库,利用该中文形近字字典库对待上传文档集合的明文倒排索引进行扩展;其中,所述步骤S1的过程如下:
S11、建立待上传文档的唯一标识集FILE(flie1,flie2,...,flien),其中n代表待上传文档的个数;
S12、使用分布式搜索引擎Lucene结合中文分词器IKAnalyzer对待上传文档集合进行全文分词并进行过滤,分词的结果为(w'1,w'2,...,w'p),p是倒排索引的长度,各文档集的倒排索引为EnIndexfile=(w'1,w'2,...,w'p);
S13、收集常用中文汉字N个,建立常用中文汉字字典,通过收集和分析常用中文的形近字,拓展为中文形近字字典库DICT,其中N为正整数;
S14、遍历倒排索引中的关键词wj',j=1,2,…,m,若该关键词存在形近词,则利用DICT将wj'扩展为wj'=(wj',wj1,wj2,...,wjm),其中(wj1,wj2,...,wjm)为wj'的形近词集合,m代表wj存在形近词的个数;若wj'不存在形近词,则wj=wj’;
S15、更新明文倒排索引为EnIndexfile=(w1,w2,...,wp);
S2、数据加密,给定安全参数k,数据拥有者根据安全参数k,建立可搜索加密密钥Kindex=(K1,K2),用于加密和构建密文索引;建立对称加密密钥Kenc,用于加密待上传文档;使用可搜索加密密钥Kindex对步骤S1得到的倒排索引进行加密,使用对称加密密钥Kenc对待上传文档进行加密;其中,所述步骤S2过程如下:
S21、给定安全参数k,根据安全参数k,数据拥有者在本地随机生成k比特长的可搜索加密密钥Kindex=(K1,K2)和对称加密密钥Kenc;
S22、将生成的倒排索引EnIndexfile=(w1,w2,...,wp)作为索引关键词使用Kindex进行加密,索引的加密使用链式结构;
wj→Enc(flie1)→Enc(flie2)→···→Enc(fliex),
当wj=(wj',wj1,wj2,...,wjm)是多个形近词集合时,对于每一个形近词先链接该词对应的文档,再依次序链接其他词对应的文档,最终生成所有索引关键词的加密密文索引;
S23、使用对称加密算法对所有待上传文档进行对称加密操作,对称加密密钥为Kenc,利用唯一标识集FILE(flie1,flie2,...,flien)与密文文档一一对应,然后构建B+树作为密文文档唯一标识符的索引;
S3、用户授权,数据拥有者将可搜索加密密钥Kindex分割成(Ku,Pu),Ku发给授权用户,Pu作为服务器验证参数,完成用户授权;
S4、检索文档,用户以密钥组Ku和待检索关键词作为输入,生成检索陷门,并将检索陷门提交到云服务器;云服务器通过加密密文索引验证检索陷门,按匹配的加密文档和模糊关键词对应的文档序列返回给用户,若该检索关键词的形近词所在文档也包含在文档集合中,则检索结果中检索关键词所在文档会排在其形近词所在文档前。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810121448.7/1.html,转载请声明来源钻瓜专利网。