[发明专利]从搜索引擎进行随机采样的方法和系统有效
申请号: | 202080049008.0 | 申请日: | 2020-07-01 |
公开(公告)号: | CN114072788B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | M·贝斯勒;T·哈普-巴穆勒;J·约瑟夫;P·派特兰库 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F16/95 | 分类号: | G06F16/95 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 鲍进 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索引擎 进行 随机 采样 方法 系统 | ||
本发明涉及一种用于使用搜索引擎的搜索引擎接口从文档语料库提供一个或多个随机样本文档的方法。提供随机样本文档中的每个包括从基于时间的桶的集合中随机地选择基于时间的桶。搜索查询被发送到搜索引擎接口,其定义对语料库的文档的搜索,该文档具有由随机选择的基于时间的桶定义的时间窗口内的时间戳。响应于搜索查询的发送,搜索结果从搜索引擎接口接收。搜索结果包括语料库的具有在由随机选择的基于时间的桶定义的时间窗口内的时间戳的所有文档的集合。此外,随机地选择由所接收的文档集合包括的一个文档。
技术领域
本公开涉及电子数据处理领域,并且更具体地涉及来自搜索引擎的随机采样。
背景技术
在Z.Bar-Yossef和M.Gurevich于Journal of the ACM,vol.55,issue 5,articleno.24,2008中的文章“Random sampling from a search engine’s index”中,其引用了K.Bharat和A.Broder于Proceedings of the 7th International World Wide WebConference(WWW7),pages 379-388,1998中的文章“A technique for measuring therelative size and overlap of public Web search engines”,该文章描述了仅使用搜索引擎的公共接口从由搜索引擎索引的文档语料库中采样随机文档的方法。制定随机查询并将其提交给搜索引擎。从返回的结果集中挑选统一选择的文档。为了构建随机查询,需要出现在搜索的语料库的文档中的项的词典。词典中的每个术语伴随有其频率的估计。通过基于项的估计频率从词典中随机选择项作为搜索项并且取其结合或析取来制定随机查询。在预处理步骤中通过爬取文档语料库来构建词典。
Bharat和Broder的技术具有有利于长文档的缺点,因为这样的文档由于它们的更丰富的内容一般比更短的文档匹配更多的随机查询。另一问题是公共搜索引擎通常不允许访问查询的结果的完整列表,而是仅允许访问预定义最大数目的结果,即前N个结果。由此,对于具有多于N个可能的结果的随机查询,Bharat-Broder方法偏向于在前N个搜索结果内具有高静态排名的文档。对于具有随机搜索项的析取组合的查询,这尤其可以是这种情况。为了缓解这个问题,Bharat和Broder方法使用估计的项频率来选择不太可能返回多于N个结果的查询。然而,随着由搜索引擎索引的文档语料库的文档数量的数量级增加,虽然N通常保持恒定,但是用于查询选择的该解决方案变得无效。可能几乎不可能找到随机项,从而使得包括这些随机项的析取查询返回少于N个结果。如果发现具有小于N个结果的析取查询,则使用这些查询可能具有仅实际采样语料库的小子集的缺点。即使通过增加由查询包括的随机项的数量更容易构造具有小于N个结果的联合查询,使用更随机项也增加了朝向较长文档增加的偏向,特别是朝向具有大量项的文档,如字典和词语列表。
即使在修改Bharat-Broader方法以避免这种偏向的情况下,如由Z.Bar-Yossef和M.Gurevich于Journal of the ACM,vol.55,issue 5,article no.24,2008中的文章“Random sampling from a search engine’s index”所描述的那种,依然存在Bharat-Broader的缺点:尤其从多语种的大型语料库中产生真实随机样本很昂贵。这可能需要搜索接口的数百万次调用来获得随机样本。
发明内容
不同实施例提供了用于使用搜索引擎的搜索引擎接口从文档语料库提供一个或多个随机样本文档的方法,以及用于执行如独立权利要求的主题所述的方法的计算机程序产品和计算机系统。在从属权利要求中描述了有利的实施例。如果本发明的实施例不相互排斥,则它们可以彼此自由组合。
在一个方面,本发明涉及一种用于使用搜索引擎的搜索引擎接口从文档语料库提供一个或多个随机样本文档的方法。搜索引擎包括索引文档语料库的搜索索引。语料库的每个文档被分配有时间戳。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080049008.0/2.html,转载请声明来源钻瓜专利网。