[发明专利]搜索排序器的自动选择有效
申请号: | 201910341352.6 | 申请日: | 2019-04-26 |
公开(公告)号: | CN110413763B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | D·考赫恩;S·埃瑞拉;H·瑞特曼;B·维内尔 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/338;G06F16/35 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 李颖 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 排序 自动 选择 | ||
本公开涉及搜索排序器的自动选择。一种用于搜索结果排序器的自动选择的方法,包括:提供一组查询;对于每个所述查询,从搜索引擎接收多个相关性分数集合,其中每个相关性分数集合与利用多个计算机化搜索结果排序器中的每一个在电子文档的语料库中找到的搜索结果关联;根据与所述查询关联的所述多个相关性分数集合,计算每个所述查询相对于所述一组搜索查询中的所有其他查询的难度分数;根据与所述搜索结果排序器关联的所述多个相关性分数集合,计算每个所述搜索结果排序器的质量分数,其中所述多个相关性分数集合中的每一个按照其关联的查询的难度分数被加权;和根据所述质量分数,选择所述搜索排序器之一。
技术领域
本发明涉及计算机化信息检索(IR)的领域。
背景技术
许多信息检索任务涉及基于每个均在包含许多电子文档的语料库(corpora)中被搜索的多个搜索项来检索文档。
信息检索任务可以表述为:给定文档集或或语料库和搜索查询,从语料库中检索最可能与搜索查询相关的文档的排序列表。
选择正确的检索策略是一项具有挑战性的任务,它取决于文档语料库、搜索查询集和最终用户。许多IR系统在响应用户的查询时,在检索性能上存在很大差异。即使对于通常完成良好的系统,对于一些查询返回的结果的质量也较差,这会导致用户不满。
于是,在IR领域中,预先估计响应于查询而进行的搜索的有效性的能力是备受关注的。一些方法需要检索后的相关性判断,以训练用于受监督的排序器选择的决策模型。不过,在缺乏相关性判断的情况下,可以使用查询性能预测(QPP)方法来估计搜索质量,从而用于检索策略选择。
现有技术的上述例子及与之相关的限制是例证性的,而不是排他性的。当阅读说明书和研究附图时,对本领域的技术人员来说,现有技术的其他限制将变得明显。
发明内容
结合示例性和说明性的而不是对范围的限制的系统、工具和方法,举例说明以下实施例及其各个方面。
按照实施例,提供一种用于搜索结果排序器的计算机化自动选择的方法,所述方法包括操作至少一个硬件处理器以提供一组计算机化搜索查询;对于每个所述搜索查询,从计算机化搜索引擎,接收多个相关性分数集合,其中每个相关性分数集合与利用多个计算机化搜索结果排序器中的每一个在电子文档的语料库中找到的搜索结果关联;根据与所述搜索查询关联的所述多个相关性分数集合,计算每个所述搜索查询相对于所述一组搜索查询中的所有其他搜索查询的难度分数;根据与所述搜索结果排序器关联的所述多个相关性分数集合,计算每个所述搜索结果排序器的质量分数,其中所述多个相关性分数集合中的每一个按照其关联的搜索查询的难度分数被加权;和根据所述质量分数,选择所述搜索排序器之一。
按照实施例,还提供一种用于搜索结果排序器的自动选择的计算机程序产品,所述计算机程序产品包括其中包含有程序代码的非临时性计算机可读存储介质,所述程序代码可由至少一个硬件处理器执行,以提供一组计算机化搜索查询;对于每个所述搜索查询,从计算机化搜索引擎,接收多个相关性分数集合,其中每个相关性分数集合与利用多个计算机化搜索结果排序器中的每一个在电子文档的语料库中找到的搜索结果关联;根据与所述搜索查询关联的所述多个相关性分数集合,计算每个所述搜索查询相对于所述一组搜索查询中的所有其他搜索查询的难度分数;根据与所述搜索结果排序器关联的所述多个相关性分数集合,计算每个所述搜索结果排序器的质量分数,其中所述多个相关性分数集合中的每一个按照其关联的搜索查询的难度分数被加权;和根据所述质量分数,选择所述搜索排序器之一。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910341352.6/2.html,转载请声明来源钻瓜专利网。