[发明专利]存储数据和从位向量搜索索引取回数据有效
申请号: | 201680037378.6 | 申请日: | 2016-06-22 |
公开(公告)号: | CN107710201B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | M·J·霍普克罗夫特;R·L·古德温;D·V·德伊内科 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/93;G06F16/2453;G06F16/31;G06F16/901 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华;辛鸣 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 存储 数据 向量 搜索 索引 取回 | ||
本文所描述的技术提供了在位向量搜索索引中存储和取回数据。位向量搜索索引使用位向量来存储关于来自文档的项目的数据。每个位向量包括位的阵列,并且对应于不同的项目集合。位向量中的每个位向量被用来表示文档是否包括来自项目集合的至少一个项目。条带表被用来为具有相似项目特性的项目条带存储位向量配置。每个项目根据针对其所属于的条带的位向量配置而在位向量搜索索引中被索引。在标识针对项目的位向量存储位置时,对于某些项目使用明确映射,并且对于其他项目使用自组织方式。明确映射提供针对项目的特定位置,而自组织方式使用被指派给条带的映射算法。
背景技术
因特网和其他电子资源上的可用信息和数字内容的量持续快速增长。考虑到大量的信息,已经开发了搜索引擎以促进搜索电子文档。特别地,用户或计算机可以通过提交搜索查询来搜索信息和文档,搜索查询可以包括例如一个或多个字。在接收到搜索查询之后,搜索引擎基于搜索查询来标识相关的文档。
在高层次上,搜索引擎通过对文档与搜索查询的相关性进行排名来标识搜索结果。排名通常基于大量的文档特征。考虑到文档集合很大,对针对搜索查询的所有文档进行排名是不可行的,因为这将花费不可接受的时间。因此,搜索引擎通常使用包括用来为最终排名过程而将文档从考虑中移除的初步操作的流水线。这一流水线传统上包括匹配器,匹配器过滤掉不具有来自搜索查询的项目的文档。匹配器使用搜索索引进行操作,搜索索引包括通过爬取文档或以其他方式分析文档以收集关于文档的信息而被收集的信息。搜索索引通常由针对在文档中发现的各种项目的发布列表(有时被称为反向索引)组成。针对特定项目的发布列表由包含该项目的文档的列表组成。当接收到搜索查询时,匹配器使用搜索索引来标识包含从搜索查询标识的项目的文档。然后可以通过流水线中的一个或多个下游过程来考虑匹配文档,一个或多个下游过程进一步移除文档并最终返回已排名的搜索结果的集合。
发明内容
提供本发明内容以便以简化的形式介绍将在以下具体实施方式中被进一步描述的对概念的选择。本发明内容不旨在标识要求保护的主题的关键特征或必要特征,也不旨在被用作确定所要求保护的主题的范围的辅助手段。
本文所描述的技术提供了在位向量搜索索引中存储和取回数据。位向量搜索索引是一种使用位向量来索引关于在文档中包含的项目的信息的数据结构。每个位向量包括存储针对项目集的信息的位的阵列。位向量中的每个位位置(或位)指示一个或多个文档是否包含来自项目集的一个或多个项目。附加地,一个项目可以被包括在多个位向量中。根据本文所描述的技术的一些方面,通过基于项目特性将项目分组成多个条带并向条带指派位向量配置来实现位向量搜索索引中的项目的分布。位向量配置表示针对项目而被使用的位向量的数目和长度,并且还可以指定针对每个位向量的存储装置的类型(例如,DDR、SSD、HDD等)。使用条带避免了在每项目的基础上指派位向量配置的复杂性,并且避免了对所有项目使用单个位向量配置的一刀切解决方案的低效率。本文所描述的技术的其他方面解决了针对项目的位向量的存储位置的标识。可以使用用于标识位向量存储位置的混合方式,其针对不同的项目使用明确映射和自组织方式二者。针对为每个项目标识特定位向量存储位置的那些项目提供明确映射。例如,可以对于在搜索查询和/或文档中最常出现的项目使用这种映射。对于其他项目,使用自组织方式,其中为项目的条带提供映射算法。针对每个条带的映射算法被用来得出针对每个条带中的项目的位向量存储位置。每个映射算法可以将存储位置例如确定为项目的散列的函数。
附图说明
下面参考附图详细描述本文所提供的技术的各方面,其中:
图1是图示出根据本文所描述的技术的一个方面的用于单个项目的位向量的图;
图2是图示出根据本文所描述的技术的一个方面的用于三个项目的组合的位向量的图;
图3是图示出根据本文所描述的技术的一个方面的将项目包括在多个位向量中的图;
图4A至图4C是图示出根据本文所描述的技术的一个方面对位向量进行相交以标识包括项目的文档的图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680037378.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:应用程序内历史搜索
- 下一篇:与旧有工具集成的云原生文档
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置