[发明专利]利用用户反馈处理查询的系统和方法无效
申请号: | 200780041975.7 | 申请日: | 2007-10-03 |
公开(公告)号: | CN101563685A | 公开(公告)日: | 2009-10-21 |
发明(设计)人: | 马修·科来奇;马克·卡里尔 | 申请(专利权)人: | 阿迪利亚公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京康信知识产权代理有限责任公司 | 代理人: | 余 刚;吴孟秋 |
地址: | 加拿大*** | 国省代码: | 加拿大;CA |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 用户 反馈 处理 查询 系统 方法 | ||
相关申请的交叉参考
本申请要求于2007年10月3日提交的第11/538,285号美国申请的优先权,其为于2004年8月20日提交的第10/921,875号美国申请的部分继续,并要求于2003年8月21日提交的第60/496,681号美国临时申请的优先权。这些在先申请的内容全部通过引证结合于此。
技术领域
本发明涉及因特网搜索,更具体地,涉及使用语义消歧和扩展的因特网搜索。更具体地,本发明提供了使用户能够选择期望的查询解释的查询处理方法和系统。
背景技术
当使用诸如因特网上的网页或文档的数据库的大的数据集进行工作时,大量的可用数据使得难以找到相关信息。在这样的信息库中找到相关信息的尝试中,使用了各种搜索方法。一些众所周知的系统为因特网搜索引擎,诸如允许用户执行基于关键字的搜索的Yahoo(商标)和Google(商标)。这些搜索典型地包括将用户输入的关键字与网页索引中的关键字进行匹配。
然而,现有的因特网搜索方法常常产生一些不是特别有用的结果。该搜索可以返回许多结果,但是仅有很少或没有与用户的查询相关的结果。另一方面,该搜索可能仅返回少量结果,但其中没有用户明确查找的,同时也没有返回潜在的相关结果。
在执行这种搜索中遇到一些困难的一个原因是在自然语言中使用的字的歧义。具体地,因为一个字可具有多个含义而经常遇到困难。通过使用一种称为字义消歧的技术,已经在过去解决了该困难,该技术包括将字改变为具有特定语义含义的字义。例如,字“bank”可以具有“金融机构(financial institution)”或属于它的另一定义的字义。
美国专利6,453,315教导了基于含义的信息组织和检索。该专利教导了通过概念词典以及概念之间的关系来创建语义空间。多个查询被映射到表示语义空间和查询定位的多个含义区分器(differentiator)上。通过确定这些区分器之间的语义差别以确定接近性和含义来完成搜索。该系统依赖用户来基于由该系统确定的含义来精炼搜索,或可选地通过在搜索结果中找到的节点进行导航。
如在本领域中已知的,通过“精确度”和“查全率(recall)”来量化信息检索效率的评价。精确度通过将在搜索中找到的正确结果数除以总的结果数来量化。查全率是通过将在搜索中找到的正确结果数除以总的可能的正确结果数来量化。理想的(例如100%)查全率可以通过返回所有可能结果而简单地获得,当然这将给出非常低的精确度。大多数现有系统力求查全率和精确度标准的平衡。例如通过使用同义字提供更多的可能结果来增加查全率,会必然降低精确度。另一方面,通过限制搜索结果来提高精确度,例如通过选择与查询中的字的精确顺序相匹配的结果,会降低查全率。
这需要一种解决现有技术中不足的查询处理系统和方法。
发明内容
根据本发明的一个方面,提供了一种搜索信息的方法,包括以下步骤:对查询进行消歧;根据关键字含义对信息进行消歧和索引;搜索索引的信息以使用查询中的关键字含义和与查询中的关键字含义语义相关的其它字含义来查找与查询相关的信息;以及返回包括包含关键字含义和其他语义相关字含义的信息的搜索结果。
该方法可以被应用到使用关键字索引的任意数据库。优选地,该方法应用到因特网的搜索。
语义关系可以是两个字之间的任意逻辑上或句法上定义的关联类型。这种关联的实例为同义、下义关系等。
对查询进行消歧的步骤可以包括为字含义分配可能性。相似地,对信息进行消歧的步骤可以包括将可能性附给字含义。
在本方法中使用的关键字含义可以是更精确字含义的粗略分组。
另一个方面,提供了一种处理指向数据库的查询的方法。该方法包括以下步骤:获得来自用户的查询;以及使用知识库对该查询进行消歧以获得查询中字的一个可识别的含义集,称为查询的“解释”。另外,如果该集包括多于一个的可识别解释,则可以执行下面的附加步骤:从该集中选择一个解释作为最佳的解释;利用该查询的最佳解释来识别与最佳解释有关的来自数据库的相关结果;通过排除与最佳解释相关联的结果来对该集的其余解释进行重新消歧;从其余解释中选择下一个最佳解释;以及利用该查询的下一个最佳解释来识别与下一个最佳解释有关的来自数据库的相关结果。
又一个方面,本发明提供了处理指向数据库的查询的方法,该方法包括以下步骤:
——获得来自用户的查询;
——使用知识库对该查询进行消歧以获得用于一个或多个字的一个含义集;
——基于该含义集获得该查询的一个解释集;
——向用户呈现该解释集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿迪利亚公司,未经阿迪利亚公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200780041975.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种耐高温木聚糖酶在动物饲料中的配方方法
- 下一篇:一种生物饲料