[发明专利]一种针对密文域的形近汉字全文模糊检索方法有效
申请号: | 201810121448.7 | 申请日: | 2018-02-07 |
公开(公告)号: | CN108334612B | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 吴翊铭;赵搏文;唐韶华 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F40/289;H04L9/40 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种针对密文域的形近汉字全文模糊检索方法,该方法基于对称可搜索加密方案以及倒排索引结构实现中文密文域模糊搜索,支持字形相似汉字在密文状态下的模糊搜索且保证搜索结果有序,支持多关键词逻辑连接模糊搜索。本发明采用分布式搜索引擎Lucene和中文分词器IKAnalyzer对文档进行全文分词,通过建立的3755个常用汉字的形近字字库构建包含形近字的明文倒排索引,考虑倒排索引结构的安全,将明文倒排索引中的每一个关键词及其对应的文档编号构造成加密链形式,并采用B+树结构来加速搜索。本发明在无误检和无漏检的情况下实现了半可信云服务器的中文全文密文域模糊搜索。 | ||
搜索关键词: | 一种 针对 密文域 汉字 全文 模糊 检索 方法 | ||
【主权项】:
1.一种针对密文域的形近汉字全文模糊检索方法,其特征在于,所述的方法包括下列步骤:S1、生成倒排索引,利用分布式搜索引擎Lucene和中文分词器IKAnalyzer对待上传的文档集合进行全文分词,获取待上传文档集合的明文倒排索引,通过分析常用中文的形近字构建中文形近字字典库,利用该中文形近字字典库对带上传文档集合的明文倒排索引进行扩展;S2、数据加密,给定安全参数k,数据拥有者根据安全参数k,建立可搜索加密密钥Kindex=(K1,K2),用于加密和构建密文索引;建立对称加密密钥Kenc,用于加密待上传文档;使用可搜索加密密钥Kindex对步骤二得到的倒排索引进行加密,使用对称加密密钥Kenc对待上传文档进行加密;S3、用户授权,数据拥有者将可搜索加密密钥Kindex分割成(Ku,Pu),Ku发给授权用户,Pu作为服务器验证参数,完成用户授权;S4、检索文档,用户以密钥组Ku和待检索关键词w作为输入,生成搜索陷门,并将检索陷门提交到云服务器;云服务器通过加密密文索引验证检索陷门,按匹配的加密文档和模糊关键词对应的文档序列返回给用户,若该检索关键词其形近词也包含在文档集合中,则检索结果中检索关键词所在文档会排在其形近词所在文档前。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810121448.7/,转载请声明来源钻瓜专利网。