[发明专利]一种用于加速相似文本搜索的新型高效过滤方法在审
申请号: | 202211539709.X | 申请日: | 2022-12-02 |
公开(公告)号: | CN115840810A | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 戴海鹏;王景午;李猛;陈贵海 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 郭红岩 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 加速 相似 文本 搜索 新型 高效 过滤 方法 | ||
本发明公开了一种用于加速相似文本搜索的新型高效过滤方法,包括如下步骤:对于用户提交的文本数据集,区分高低频元素,将低频元素进行哈希建立待搜索数据集;将数据集中的签名按长度分成不同分区,对于每个分区中的签名,使用聚类方法,将新的带搜索数据集中的相似签名,形成不同的簇,保证簇内文本与簇头文本相似度大于设定的相似度阈值;将每个分区中的每个簇中的文本,分别构建完全二叉树;将树过滤器部署到系统中,通过快速过滤来加速相似文本搜索。本发明在使用K最小值技术来估计交集势的基础上,将过滤器按照数据集的分布构建成树状,避免重复遍历,提升检索效率,并避免了过滤的准确性降低问题。
技术领域
本发明涉及数据库领域,具体而言涉及一种用于加速相似文本搜索的新型高效过滤方法。
背景技术
随着开放性数据时代的到来,越来越多的数据库被不断地发布,同时这些数据库随着不断更新变得十分庞大,这些大型数据库也正被广泛地运用在诸多应用中(如数据挖掘、数据清洗、文档搜索),因此,人们对于如何在大型数据库快速进行相似文本搜索的问题产生了越来越浓厚的兴趣。
相似文本搜索可以转化为阈值交集势查询问题,而GB-KMV sketch技术可以用来高效地完成阈值交集势搜索问题,GB-KMV sketch方法充分考虑了数据的分布关系特点(即集合大小分布和元素频率分布),在保证执行阈值交集势查询获得快速响应的同时,也相较KMV sketch技术大幅度提高了阈值交集势查询的准确度。
由于GB-KMV sketch要对每一条文本的高频部分和低频部分都和查询文本进行比较,因此相对来说比较耗时。需要设计过滤器来对过滤掉部分元素进行加速处理。
发明内容
发明目的:针对上述现有技术存在的问题和不足,本发明的目的是提出一种用于加速相似文本搜索的新型高效过滤方法,解决相似文本搜索性能不高的问题。
技术方案:为实现上述发明目的,本发明提供一种用于加速相似文本搜索查询的新型高效过滤方法,包含如下步骤:
(1)高低频元素分块均匀哈希:对于需要查询的文本数据集,统计文本数据集中所有元素的频率,选出前B个元素作为文本的高频部分,剩余元素为作为低频部分,所述高频部分使用位图表示,所述低频部分截取一部分作为K最小值,所述K最小值为KMV签名,将重新表示完毕的文本传入步骤(2);
(2)分区相似签名聚类阶段:利用低频部分的KMV签名,根据KMV签名长度划分为不同的分区,每个分区中包含低频部分签名长度相等的文本;在每一个分区内部,使用聚类算法,随机选取簇中心,分别计算其它文本与簇中心的相似度,将相似度高的文本的高频部分和低频部分的KMV签名组成一个簇,如果簇的大小满足要求,则保留簇,否则重新选取簇中心,将聚类好的簇传入步骤(3);
(3)KMV森林构建阶段:对每一个分区中的每一个簇,都构建一颗完全二叉树,所述二叉树的叶子节点由簇内的若干文本构成,记录下文本的高频部分和低频部分;每个父节点都包含所述叶子节点的全部文本信息,高频部分位图为两个叶子节点的并集,依次向上构建,最终根节点包含簇内的所有文本的信息;
(4)阈值交集势查询:根据每一个待查询的文本和对应的相似度阈值,在KMV森林中的每一棵树中,从根节点往下递归查询,如果当前节点的交集势不满足相似度阈值,则不再进行后续查询;如果递归到叶子节点仍然满足交集势要求,则将满足交集势要求的叶子节点传入步骤(5);
(5)验证阶段:对每一个叶子节点中包含的文本,均执行交集势计算操作来判断所述文本是否是符合相似度要求的相似文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211539709.X/2.html,转载请声明来源钻瓜专利网。