[发明专利]从搜索引擎进行随机采样的方法和系统有效
申请号: | 202080049008.0 | 申请日: | 2020-07-01 |
公开(公告)号: | CN114072788B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | M·贝斯勒;T·哈普-巴穆勒;J·约瑟夫;P·派特兰库 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F16/95 | 分类号: | G06F16/95 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 鲍进 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索引擎 进行 随机 采样 方法 系统 | ||
1.一种用于使用搜索引擎的搜索引擎接口从文档语料库提供一个或多个随机样本文档的方法,所述搜索引擎包括索引所述文档语料库的搜索索引,所述语料库的每个所述文档被指派有时间戳,所述方法包括:
确定感兴趣的时间帧,
提供所述一个或多个随机样本文档,所述随机样本文档中每一个的所述时间戳在所述感兴趣的时间帧内,所述提供所述一个或多个随机样本文档中的每一个包括:
从基于时间的桶的集合中随机选择基于时间的桶,所述基于时间的桶的集合将所述感兴趣的时间帧划分为多个时间窗口,每个所述基于时间的桶定义所述时间窗口中的一个,对于所述时间窗口中的每一个,由所述语料库包括的具有在相应时间窗口内的时间戳的文档的数量满足第一预定义标准,
向所述搜索引擎接口发送要由所述搜索引擎使用所述搜索索引执行的搜索查询,所述搜索查询定义对所述语料库的具有在由所述随机选择的基于时间的桶定义的所述时间窗口内的时间戳的文档的搜索,
响应于所述搜索查询的发送,从所述搜索引擎接口接收搜索结果,所述搜索结果包括所述语料库的具有在由所述随机选择的基于时间的桶定义的所述时间窗口内的时间戳的所有文档的集合,以及
随机选择由所接收的文档集合包括的文档中的一个。
2.如权利要求1所述的方法,由所述基于时间的桶对所述时间窗口的定义包括所述时间窗口内的时间规范和所述时间窗口的宽度。
3.如权利要求1所述的方法,所述第一预定义标准提供待匹配的文档的预定义数量。
4.如权利要求1所述的方法,所述第一预定义标准提供待匹配的文档的预定义数量范围。
5.如前述权利要求中任一项所述的方法,所述确定感兴趣的时间帧包括:
确定分配给所述语料库的所述文档的最早时间戳,
确定分配给所述语料库的所述文档的最近时间戳,
所述感兴趣的时间帧是从由最早时间戳和最近时间戳跨越的时间间隔中选择的。
6.如权利要求5所述的方法,所述感兴趣的时间帧等于由所述最早时间戳和所述最近时间戳跨越的时间间隔。
7.如权利要求5所述的方法,所述感兴趣的时间帧比由所述最早时间戳和所述最近时间戳跨越的时间间隔更短。
8.如权利要求1至4中任一项所述的方法,对于所述基于时间的桶的随机选择,所述方法进一步包括使用第一搜索查询确定所述基于时间的桶的集合的第一子集的第一基于时间的桶,确定所述第一基于时间的桶中的每一个包括:
选择具有预定义宽度的所述感兴趣的时间帧内的第一时间窗口,
生成第一搜索查询,所述第一搜索查询定义对所述语料库的具有在所述第一时间窗口内的时间戳的文档的搜索,
向所述搜索引擎接口发送所述第一搜索查询以供所述搜索引擎使用所述搜索索引来执行,
响应于所述第一搜索查询的发送,从所述搜索引擎接口接收第一搜索结果,所述第一搜索结果包括所述语料库的具有在由所述第一搜索查询定义的所述第一时间窗口内的时间戳的文档的集合,
如果所接收的第一搜索结果满足关于要由所述基于时间的桶包括的文档数量的所述第一预定义标准,则生成包括由所述第一搜索查询使用的所述第一时间窗口的定义的第一基于时间的桶,
否则,调整所述第一时间窗口并且使用具有调整后的第一时间窗口的调整后的第一搜索查询执行进一步的搜索。
9.如权利要求8所述的方法,重复调整所述第一时间窗口并且使用具有调整后的第一时间窗口的调整后的第一搜索查询执行进一步的搜索,直到所述进一步搜索的第一搜索结果满足所述第一预定义标准或达到预定义的最大重复次数为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080049008.0/1.html,转载请声明来源钻瓜专利网。