[发明专利]从搜索引擎进行随机采样的方法和系统有效

专利信息
申请号: 202080049008.0 申请日: 2020-07-01
公开(公告)号: CN114072788B 公开(公告)日: 2023-02-03
发明(设计)人: M·贝斯勒;T·哈普-巴穆勒;J·约瑟夫;P·派特兰库 申请(专利权)人: 国际商业机器公司
主分类号: G06F16/95 分类号: G06F16/95
代理公司: 中国贸促会专利商标事务所有限公司 11038 代理人: 鲍进
地址: 美国*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 搜索引擎 进行 随机 采样 方法 系统
【权利要求书】:

1.一种用于使用搜索引擎的搜索引擎接口从文档语料库提供一个或多个随机样本文档的方法,所述搜索引擎包括索引所述文档语料库的搜索索引,所述语料库的每个所述文档被指派有时间戳,所述方法包括:

确定感兴趣的时间帧,

提供所述一个或多个随机样本文档,所述随机样本文档中每一个的所述时间戳在所述感兴趣的时间帧内,所述提供所述一个或多个随机样本文档中的每一个包括:

从基于时间的桶的集合中随机选择基于时间的桶,所述基于时间的桶的集合将所述感兴趣的时间帧划分为多个时间窗口,每个所述基于时间的桶定义所述时间窗口中的一个,对于所述时间窗口中的每一个,由所述语料库包括的具有在相应时间窗口内的时间戳的文档的数量满足第一预定义标准,

向所述搜索引擎接口发送要由所述搜索引擎使用所述搜索索引执行的搜索查询,所述搜索查询定义对所述语料库的具有在由所述随机选择的基于时间的桶定义的所述时间窗口内的时间戳的文档的搜索,

响应于所述搜索查询的发送,从所述搜索引擎接口接收搜索结果,所述搜索结果包括所述语料库的具有在由所述随机选择的基于时间的桶定义的所述时间窗口内的时间戳的所有文档的集合,以及

随机选择由所接收的文档集合包括的文档中的一个。

2.如权利要求1所述的方法,由所述基于时间的桶对所述时间窗口的定义包括所述时间窗口内的时间规范和所述时间窗口的宽度。

3.如权利要求1所述的方法,所述第一预定义标准提供待匹配的文档的预定义数量。

4.如权利要求1所述的方法,所述第一预定义标准提供待匹配的文档的预定义数量范围。

5.如前述权利要求中任一项所述的方法,所述确定感兴趣的时间帧包括:

确定分配给所述语料库的所述文档的最早时间戳,

确定分配给所述语料库的所述文档的最近时间戳,

所述感兴趣的时间帧是从由最早时间戳和最近时间戳跨越的时间间隔中选择的。

6.如权利要求5所述的方法,所述感兴趣的时间帧等于由所述最早时间戳和所述最近时间戳跨越的时间间隔。

7.如权利要求5所述的方法,所述感兴趣的时间帧比由所述最早时间戳和所述最近时间戳跨越的时间间隔更短。

8.如权利要求1至4中任一项所述的方法,对于所述基于时间的桶的随机选择,所述方法进一步包括使用第一搜索查询确定所述基于时间的桶的集合的第一子集的第一基于时间的桶,确定所述第一基于时间的桶中的每一个包括:

选择具有预定义宽度的所述感兴趣的时间帧内的第一时间窗口,

生成第一搜索查询,所述第一搜索查询定义对所述语料库的具有在所述第一时间窗口内的时间戳的文档的搜索,

向所述搜索引擎接口发送所述第一搜索查询以供所述搜索引擎使用所述搜索索引来执行,

响应于所述第一搜索查询的发送,从所述搜索引擎接口接收第一搜索结果,所述第一搜索结果包括所述语料库的具有在由所述第一搜索查询定义的所述第一时间窗口内的时间戳的文档的集合,

如果所接收的第一搜索结果满足关于要由所述基于时间的桶包括的文档数量的所述第一预定义标准,则生成包括由所述第一搜索查询使用的所述第一时间窗口的定义的第一基于时间的桶,

否则,调整所述第一时间窗口并且使用具有调整后的第一时间窗口的调整后的第一搜索查询执行进一步的搜索。

9.如权利要求8所述的方法,重复调整所述第一时间窗口并且使用具有调整后的第一时间窗口的调整后的第一搜索查询执行进一步的搜索,直到所述进一步搜索的第一搜索结果满足所述第一预定义标准或达到预定义的最大重复次数为止。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202080049008.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top