[发明专利]生成用于k个不匹配搜索的过滤器的系统和方法在审
申请号: | 201880032748.6 | 申请日: | 2018-03-19 |
公开(公告)号: | CN110892401A | 公开(公告)日: | 2020-03-17 |
发明(设计)人: | 恰克哈里亚·弗伦克尔;泽耶夫·沃尔科维奇 | 申请(专利权)人: | 奥菲克-艾什科洛研究与发展有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F40/194;G16B30/00;G16B40/00;G06F7/02 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 刘瑞贤 |
地址: | 以色列*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 用于 匹配 搜索 过滤器 系统 方法 | ||
1.一种用于执行k个不匹配搜索的计算机系统,包括至少一个处理器,所述至少一个处理器被配置为:
接收搜索术语的大小;
接收相似性阈值;以及
通过以下步骤生成过滤器集合:根据所述相似性阈值,基于所述搜索术语的所述大小的匹配的位置和空位的位置的组合的集合来形成所述过滤器集合,其中,所述组合中的每个包含所述过滤器集合中的至少一个过滤器。
2.根据权利要求1所述的计算机系统,其中,所述至少一个硬件处理器还被配置为通过以下步骤创建最小的过滤器集合:
对于所述过滤器集合中的每个过滤器,当所述组合的集合中存在仅包含所述过滤器集合中的所述过滤器的至少一个组合时,确定所述过滤器为可保留过滤器,以及
当所述过滤器不是可保留过滤器时,从所述过滤器集合中删除所述过滤器。
3.根据权利要求1所述的计算机系统,其中,所述组合的集合中的每个组合在各个所述组合的第一位置处包括匹配。
4.根据权利要求3所述的计算机系统,其中,所述组合的集合中的每个组合在各个所述组合的最后位置处包括匹配。
5.根据权利要求1所述的计算机系统,其中,所述至少一个硬件处理器被配置为通过以下步骤形成所述过滤器集合:
初始化所述过滤器集合;
对于所述组合的集合的每个选择的组合:
在所述选择的组合中搜索所述过滤器集合中的过滤器的出现,
当在所述选择的组合中未发现所述过滤器集合中的过滤器的所述出现时,从所述选择的组合导出新过滤器,以及
将所述新过滤器添加到所述过滤器集合。
6.根据权利要求5所述的计算机系统,其中,所述新过滤器是所述选择的组合的片段。
7.根据权利要求5所述的计算机系统,其中,所述新过滤器和所述新过滤器的匹配数中的任何一个通过随机化过程确定。
8.根据权利要求7所述的计算机系统,其中,所述匹配数是预定数量。
9.根据权利要求5所述的计算机系统,其中,所述至少一个硬件处理器被配置为从所述选择的组合中导出多个新过滤器,并且为所述多个新过滤器中的每一个分配分数,并且当所述新过滤器的所述分数高于所述多个新过滤器中的任何其他新过滤器的所述分数时,将所述新过滤器添加到所述过滤器集合。
10.根据权利要求9所述的计算机系统,其中,所述至少一个硬件处理器还被配置为根据从由以下各项组成的组中选择的参数,将所述分数分配给所述过滤器集合中的每个过滤器:分别应用所述过滤器,所述搜索术语与文本之间的期望比较次数;所述过滤器在所述组合的集合中的出现频率;所述过滤器中的匹配数;以及所述过滤器的跨度。
11.根据权利要求10所述的计算机系统,其中,所述至少一个硬件处理器还被配置为:
通过以下方式创建第二过滤器集合:
从所述过滤器集合中选择过滤器,
用至少一个不同过滤器替换每个所述选择的过滤器,根据从所述选择的过滤器的所述分数的最高分数到所述选择的过滤器的所述分数的最低分数排序的顺序执行所述选择和所述替换,其中,每个所述组合包含所述第二过滤器集合中的至少一个过滤器,以及
根据合理分数,在所述过滤器集合中选择所述第二过滤器集合。
12.根据权利要求11所述的计算机系统,其中,所述合理分数是使用选自由以下项组成的组中的参数来计算的:根据所述过滤器集合中所有所述过滤器的预期比较次数之和确定的搜索的预期计算速度;进行所述过滤器集合的搜索所需的内存的量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥菲克-艾什科洛研究与发展有限公司,未经奥菲克-艾什科洛研究与发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880032748.6/1.html,转载请声明来源钻瓜专利网。