[发明专利]使用多嵌套排序来改善排序结果有效
申请号: | 200680045523.1 | 申请日: | 2006-11-17 |
公开(公告)号: | CN101322125A | 公开(公告)日: | 2008-12-10 |
发明(设计)人: | C·J·博格斯;I·玛特维娃;L·W·翁;A·S·拉鲁夏斯;T·伯卡德 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q90/00 |
代理公司: | 上海专利商标事务所有限公司 | 代理人: | 陈斌 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 嵌套 排序 改善 结果 | ||
背景
搜索对计算机用户而言已经变为应用程序和操作系统的重要特征。甚至, 它成为计算机市场上高度有利可图的部分。一方面,广告客户购买关键词和/ 或当遇到某些搜索项时对期望的列出位置支付额外费用。另一方面,消费者主 要关注搜索的质量,且通常基于其以往的性能和声誉来选择搜索应用程序或引 擎。
更通常地,用户启动文本搜索来在因特网、其网络或其本地PC上查找特 定内容。搜索请求可按照各种格式提交。取决于他/她正在寻找的内容和搜索的 位置,用户可使用关键词、短语或词语的任何组合。搜索引擎的任务是检索与 用户查询相关的文档。当存在与相同或类似项相关的若干文档时,必须有某种 适当的技术来以反映其与查询和用户的相关性程度的次序将其呈现给用户。因 此,对检索出的文档排序可能是信息检索中最有挑战性的任务。由于大多数用 户一般仅查看列表(由搜索引擎返回)顶部的前几个结果,因此对这些结果实 现高准确度变为日益重要。
常规排序系统继续努力来产生良好的排序但仍有问题。这部分是由于可响 应于查询而返回的文档的巨大数目。为了正确地看待这个问题,当前在因特网 或Web上大约有250亿个文档(例如,网站、图像、URL)。因此,响应于 任何一个查询返回数千(如果不是数百万)文档上可行的。尽管当前的排序系 统作出了对这样大量文档准确排序的尝试,但顶部的几个结果仍可能不是与查 询和/或用户最相关的。这是由于若干原因产生的。一个原因可能是因为这样的 常规排序系统可能尝试以排序较高的结果为代价来提高低排序结果,可能会降 低顶部返回的结果的相关性。第二个可能的原因可能是使用单个排序算法来解 决整个问题(对所有可能的查询)可能限制过多。因此,仍需要改善检索出的 项目的排序同时最小化排序系统性能的花费。
概述
以下呈现了简化概述,以提供对此处所述的系统和/或方法的某些方面的 基本理解。本概述不是对此处所述的系统和/或方法的概观。它并非旨在标识关 键/重要元素,也非旨在描绘这样的系统和/或方法的范围。其概述的唯一目的 是以一种简化的形式来介绍一些概念,作为稍后呈现的更为详细的描述的序 言。
本申请涉及一种便于改善排序结果的系统和/或方法。具体地,该系统和 方法应用多个嵌套级的排序技术以对之前排序的项目的子集重新排序。可按此 方式采用不同的排序技术,但是为了讨论并为简明起见,此处将讨论一种排序 技术。
本系统和方法涉及将排序任务分成多级,其中对高或较高排序的项目的递 减子集应用排序技术。假定排序技术采用被训练来对项目排序的神经网络。可 对信息的较小集合训练多个网络以产生向用户呈现的更相关的前几个项目。例 如,想象用户向搜索组件提交了查询。搜索组件可针对给定查询检索超过一百 万个项目,其中项目可对应于文档、文件、图像或URL。可训练第一神经网络 来对该项目的初始集定序或排序。从排序项目的初始集中取前几个(例如,前 2500个)结果,并训练可用于对其重新定序的第二神经网络。可使用修改后的 项目集合——在此示例中为前2500个项目——训练第二神经网络。之后,可 经由第二神经网络对这2500个项目重新排序。从这重新排序的2500个项目中, 取得高排序项目(例如,前1000个)的更小的子集,并训练第三神经网络以 随后对其重新定序。在前1000个被重新排序之后,可使用排序在顶部的项目 的更小的子集以训练另一网络——例如前100个。前100个可按类似方式重新 排序,以产生前10个项目,这前10个项目也可被重新排序。总的效果是在分 开的级中对前2500个结果重新排序,这有效地提高了搜索组件的总体排序性 能。大多数用户仅审阅针对给定查询发回的前几个结果。通过使用以上系统和 方法,可对前几个结果重复地重新排序以改善其相关性和排序次序。因使用这 样的分级系统而得到的改善可部分地源自在每一级,在该级使用的学习机器仅 必须学习正在解决的总排序问题的小的子问题的事实。分级系统的第二个优点 是由于对某些应用(诸如,Web搜索)结果必须实时返回的事实。因此,如果 仅使用单个算法来执行排序,则该算法必须非常快。然而,在分级方法中,每 一问题涉及少得多的数据,且因此可在每一级应用更复杂(且更慢)的排序方 法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680045523.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有新型结构的电池模块
- 下一篇:骨形成和骨重建的组合物与方法