[发明专利]一种用于加速相似文本搜索的新型高效过滤方法在审
申请号: | 202211539709.X | 申请日: | 2022-12-02 |
公开(公告)号: | CN115840810A | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 戴海鹏;王景午;李猛;陈贵海 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 郭红岩 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 加速 相似 文本 搜索 新型 高效 过滤 方法 | ||
1.一种用于加速相似文本搜索的新型高效过滤方法,其特征在于利用了数据的相似度分布特征,包括以下步骤:
(1)高低频元素分块均匀哈希:对于需要查询的文本数据集,统计文本数据集中所有元素的频率,选出前B个元素作为文本的高频部分,剩余元素为作为文本的低频部分,所述高频部分使用位图表示,所述低频部分截取一部分作为K最小值,所述K最小值为KMV签名,将重新表示完毕的文本传入步骤(2);
(2)分区相似签名聚类阶段:利用低频部分的KMV签名,根据KMV签名长度划分为不同的分区,每个分区中包含低频部分签名长度相等的文本;在每一个分区内部,使用聚类算法,随机选取簇中心,分别计算其它文本与簇中心的相似度,将相似度高的文本的高频部分和低频部分的KMV签名组成一个簇,如果簇的大小满足要求,则保留簇,否则重新选取簇中心,将聚类好的簇传入步骤(3);
(3)KMV森林构建阶段:对每一个分区中的每一个簇,都构建一颗完全二叉树,所述二叉树的叶子节点由簇内的若干文本构成,记录下文本的高频部分和低频部分;每个父节点都包含所述叶子节点的全部文本信息,高频部分位图为两个叶子节点的并集,依次向上构建,最终根节点包含簇内的所有文本的信息;
(4)阈值交集势查询:根据每一个待查询的文本和对应的相似度阈值,在KMV森林中的每一棵树中,从根节点往下递归查询,如果当前节点的交集势不满足相似度阈值,则不再进行后续查询;如果递归到叶子节点仍然满足交集势要求,则将满足交集势要求的叶子节点传入步骤(5);
(5)验证阶段:对每一个叶子节点中包含的文本,均执行交集势计算操作来判断所述文本是否是符合相似度要求的相似文本。
2.根据权利要求1所述一种用于加速相似文本搜索的新型高效过滤方法,其特征在于:所述步骤(2)中,文本根据低频部分的KMV签名长度划分为不同的分区,并且每个分区中利用聚类方法根据文本间相似度将文本组成不同的簇;如果簇中包含的文本数量大于等于设定的簇大小阈值,则保留该簇,否则重新选取簇中心,重复聚类操作。
3.根据权利要求1所述所述一种用于加速相似文本搜索的新型高效过滤方法,其特征在于:所述步骤(3)中,将不同的簇构建成为一棵完全二叉树,所述完全二叉树的每个节点包含:一个指针数组,所述指针数组存放了多个文本对应的高频部分位图,以及低频KMV签名的指针;一个数组,所述数组记录了自身保存的多个文本对应的低频KMV签名中包含的所有不同元素;以及一个位图,所述位图用于保存所有文本的高频部分。
4.根据权利要求1所述一种用于加速相似文本搜索的新型高效过滤方法,其特征在于:所述步骤(3)中,将不同的簇构建成为一棵完全二叉树,包括如下步骤:首先,对于每一个分区中的每一个簇,从叶子节点开始,在簇中选取若干条文本共同构成一个叶子节点,构成叶子节点的方法是,高频部分的位图为所有文本的位图的取或,元素数组为所有文本的KMV签名中包含的所有不同元素;最后,利用所述叶子节点依次向上构成一颗完全二叉树;两个叶子节点向上合并构成父节点的方法是,父节点的指针数组为两个叶子节点的并集,元素数组为两个叶子节点的元素数组的取不含重复元素并集并排序,高频部分位图取两个叶子节点的位图的或。
5.根据权利要求1所述一种用于加速相似文本搜索的新型高效过滤方法,其特征在于:所述步骤(4)中,利用KMV森林进行过滤操作时,从根节点开始依次递归开始将高频部分位图和元素数组与查询文本相对比,如果估计得到的交集势小于相似度阈值,则过滤掉节点包含的全部文本,否则对叶子节点进行同样的过滤操作;使用前缀过滤加速查询过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211539709.X/1.html,转载请声明来源钻瓜专利网。