[发明专利]查询处理有效
申请号: | 201880068371.X | 申请日: | 2018-10-23 |
公开(公告)号: | CN111247528B | 公开(公告)日: | 2023-09-29 |
发明(设计)人: | 吉田一星 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邸万奎 |
地址: | 美国纽*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 查询 处理 | ||
1.一种方法,包括:
接收指定AND条件和OR条件的查询,所述查询指定多个OR条件;
基于AND索引结构,确定语料库中的多个文档中的满足所述查询的AND条件的文档集合;
由处理器计算所述文档集合中的第一文档的查询相似性得分,包括:
为所述查询的每个OR条件计算对应的散列值;
为所述查询的多个OR条件计算第一散列值;
确定第一文档的第二散列值,其中第二散列值存储在OR索引中;
基于第一散列值和第二散列值计算第一文档相对于所述查询的多个OR条件的总OR相似性得分;
对于当前OR条件,基于第二散列值和为当前OR条件计算的对应的散列值计算第一文档相对于当前OR条件的OR相似性得分;
响应于当前OR条件的OR相似性得分超过预定义阈值,将与当前OR条件相关联的权重相加到所述总OR相似性得分;
返回总OR相似性得分作为查询相似性得分;以及
返回第一文档的指示和所述查询相似性得分,作为对所述查询的响应。
2.根据权利要求1所述的方法,其中,所述AND索引包括倒排列表,所述倒排列表被配置为存储包括多个特征中的相应特征的每个文档的文档标识符ID,其中所述OR索引包括所述多个文档中的每个文档的相应散列值,其中第一散列值、第二散列值和所述OR索引中的散列值基于局部敏感散列函数来计算。
3.根据权利要求2所述的方法,其中,所述查询指定多个AND条件,其中,所确定的文档集合满足所述多个AND条件中的每个AND条件,其中,确定所述文档集合包括:
生成搜索查询,所述搜索查询包括所述查询中指定的所述多个AND条件中的每个AND条件的指示;
针对所述AND索引处理所述搜索查询;以及
从所述AND索引接收所述文档集合,所述文档集合包括所述文档集合中的每个文档的文档ID。
4.根据权利要求1所述的方法,还包括在计算第一文档的相似性得分之前:
从所述OR索引接收第一文档的文档标识符ID;以及
确定第一文档的文档ID被包括在所述文档集合中。
5.根据权利要求4所述的方法,还包括:
从所述OR索引接收所述语料库中的多个文档中的第二文档的文档标识符ID;
确定第二文档的文档ID未被包括在所述文档集合中;
避免计算第二文档的查询相似性得分;以及
避免返回第二文档作为对所述查询的响应。
6.根据权利要求1所述的方法,其中,所述AND索引和所述OR索引是在所述语料库中的多个文档的预处理阶段期间生成的。
7.一种系统,包括:
处理器;以及
存储器,其包含程序,所述程序在由所述处理器执行时执行操作,所述操作包括:
接收指定AND条件和OR条件的查询,所述查询指定多个OR条件;
基于AND索引结构,确定语料库中的多个文档中的满足所述查询的AND条件的文档集合;
计算所述文档集合中的第一文档的查询相似性得分,包括:
为所述查询的每个OR条件计算对应的散列值;
为所述查询的多个OR条件计算第一散列值;
确定第一文档的第二散列值,其中第二散列值存储在OR索引中;
基于第一散列值和第二散列值计算第一文档相对于所述查询的多个OR条件的总OR相似性得分;
对于当前OR条件,基于第二散列值和为当前OR条件计算的对应的散列值计算第一文档相对于当前OR条件的OR相似性得分;
响应于当前OR条件的OR相似性得分超过预定义阈值,将与当前OR条件相关联的权重相加到所述总OR相似性得分;
返回总OR相似性得分作为查询相似性得分;以及
返回第一文档的指示和所述查询相似性得分,作为对所述查询的响应。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880068371.X/1.html,转载请声明来源钻瓜专利网。