[发明专利]一种安全全文检索的方法及装置在审
申请号: | 202010965960.7 | 申请日: | 2020-09-15 |
公开(公告)号: | CN112100315A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 任锦华;刘丹;王少康 | 申请(专利权)人: | 任锦华;刘丹;王少康 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/332;G06F40/242;G06F40/289 |
代理公司: | 北京市京师律师事务所 11665 | 代理人: | 高晓丽 |
地址: | 100000 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 安全 全文 检索 方法 装置 | ||
本发明公开了一种安全全文检索的方法及装置,该方法包括:采用文档档案、词典和内容索引组成索引文件;从内容索引中读取频度流,采用频度流构建流束;依据词典获取频度信息队列,利用流束填充频度信息队列;判断词典中的所有词是否都存在对应的频度信息队列且首端的文档号相等,若是,确定文档号为命名文档号;依据命名文档号查找对应的文档内容。该方法实现提高索引安全性。
技术领域
本发明涉及检索技术领域,特别是涉及一种安全全文检索的方法及装置。
背景技术
人类进入信息技术时代以来,文件信息便捷获取和安全保障一直是文件利用的两面,多种信息技术改进都是在这两个目标之间求得平衡。
文件检索服务在党政机关企事业单位内部得到广泛应用,为用户提供了便捷高效的信息获取手段。但传统的全文检索仍存在非常大的安全隐患,索引文件中包含了大量原文信息,甚至某些全文检索产品的索引文件中直接包含原文全文,在这种情况下,即使对网络环境、服务器、数据库、应用等层面做了层层安全处理,搜索引擎仍可能越过企业原有安全架构,泄露企业机密,而且即使为数据定义了文档级和数据库级的双重安全保障,搜索引擎的还能透过授权的索引文档来搜索它们,存在较大的安全风险。同时,对内部人员而言,全文检索服务器上的内容更是重大的泄露源,普通技术缺乏对内部人员非法获取的安全防范机制。
由于索引文件中包含了大量原文信息,导致检索安全性较低,所以,如何提高检索安全性是亟待解决的问题。
发明内容
本发明的目的是提供一种安全全文检索的方法及装置,以实现提高索引安全性。
为解决上述技术问题,本发明提供一种安全全文检索的方法,包括:
采用文档档案、词典和内容索引组成索引文件;
从内容索引中读取频度流,采用频度流构建流束;
依据词典获取频度信息队列,利用流束填充频度信息队列;
判断词典中的所有词是否都存在对应的频度信息队列且首端的文档号相等,若是,确定文档号为命名文档号;
依据命名文档号查找对应的文档内容。
优选的,所述利用流束填充频度信息队列之后,还包括:
判断频度信息队列是否为空,若是,跳出频度信息队列对应的域中的查找循环。
优选的,所述判断词典中的所有词是否都存在对应的频度信息队列且首端的文档号相等之前,还包括:
利用文档档案排除频度信息队列中的不合格文档。
优选的,所述利用文档档案排除频度信息队列中的不合格文档之后,还包括:
利用词典判断是否还有下一个词,若是,新建下一个词对应的频度信息队列,加入文档对比循环。
优选的,所述依据词典获取频度信息队列,包括:
在词典中查找句子中的所有词,获取每个词对应的频度文件指针,将频度文件指针构成集合;
从集合中选择一个域,新建该域对应的频度信息队列。
优选的,所述将频度文件指针构成集合之后,还包括:
确定句子中词块的块号。
优选的,当利用词典判断没有下一个词时,将频度信息队列队首的文档作为命中文档。
本发明还提供一种安全全文检索的装置,用于实现上述方法,包括:
组成模块,用于采用文档档案、词典和内容索引组成索引文件;
读取模块,用于从内容索引中读取频度流,采用频度流构建流束;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于任锦华;刘丹;王少康,未经任锦华;刘丹;王少康许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010965960.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:微针贴片施用器及其壳体
- 下一篇:一种公安智慧巡控平台