[发明专利]利用文本的语义表示进行信息检索无效
申请号: | 98804175.8 | 申请日: | 1998-02-11 |
公开(公告)号: | CN1252876A | 公开(公告)日: | 2000-05-10 |
发明(设计)人: | 约翰·J·麦瑟利;乔治·E·海德恩;斯蒂芬·D·理查德森;威廉·B·杜兰;卡轮·杰森 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 酆迅 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 文本 语义 表示 进行 信息 检索 | ||
本发明涉及信息检索领域,并且更具体地涉及信息检索记号化领域。
信息检索指的是确定目标文档中出现查询或查询文档中的词的过程。信息检索可以被有益地应用于几种情况中,包括:处理用户的明确搜索查询,确定和某特定文档相关的文档,判断两份文档的类似性,提取某文档的特征以及概述某文档。
信息检索典型地包括两阶段过程:(1)在编索引阶段,最初通过(a)把文档中的每个词转化成信息检索引擎可理解、可区分的一串字符,称之为“记号”(即 文档的记号化)以及(b)建立各记号到该记号在该文档中出现位置的索引,对文档编索引。(2)在查询阶段中,相似地对查询(或查询文档)进行记号化,并和索引进行比较以确定文档中出现记号化后的查询中的记号的位置。
图1是描述信息检索过程的概述数据流图。在编索引阶段,把目标文档111提供给记号化器112。目标文档是由一些字符串,例如一些句子,组成的,每个字符串出现在目标文档的某特定位置上。将目标文档中的各字符串以及词的位置传送到记号化器120,记号化器120把各字符串中的词转换成一系列可由信息检索引擎130理解及区分的记号。信息检索引擎130的索引建立部分131把这些记号以及它们的位置添加到索引140中。该索引把每个唯一的记号映射到该目标文档中出现该记号的位置。若需要,可以重复该过程,以便把一些不同的目标文档添加到该索引中。若索引140表示一些目标文档中的文本,则位置信息最好包含各位置对应的文档的标记。
在查询阶段,把文本查询112提供给记号化器120。查询可能是单个字符串或一个句子,或者可能是由一些字符串组成的完整文档。记号化器120按它把目标文档中的词转换成记号的相同方式把查询112的文本中的词转换成记号。记号化器120把这些记号传送到信息检索引擎130的索引检索部分132。信息检索引擎的索引检索部分在索引140中搜索这些记号在目标文档中的出现。对于每个记号,信息检索引擎的索引检索部分确定目标文档中出现该记号的各个位置。作为查询结果113返回位置表。
常规记号化器典型地包括输入文本的外表变换,例如把每个大写字符变成小写、确定输入文本中的每个词并且去掉词的后缀。例如,常规记号化器可能把输入的文本字符串
The father is holding the baby。
(该 父亲 正抱着 该 婴儿。)转换成下述记号:
the (该)
father (父亲)
is (是)
hold (抱)
the (该)
baby (婴儿)这种记号化方法趋向于使依据它的搜索过分地包含出现这样的词,即其含意是和查询文本中的预定含意不同的。例如,该示例输入文本字符串使用“to support or grasp(支持或抓住)”含意下的动词“hold”。但是,记号“hold”可能会和其含意是“the cargo area of a ship(船的装货区”)的词“hold”匹配。这种记号化方法还趋向于过分包含这样的情况,即其中词之间的关系和查询文本中各词之间的关系不同。例如,在上述示例输入文本字符串中,“father”是词“hold”的主语而“baby”是宾语,该示例的字符串可能和句子“The father and the baby held the toy”匹配,在该句中,“baby”是主语而不是宾语。该方法还会过少地包括出现这样的情况,即采用不同的但在语义上相关的词来代替查询文本中的某个词。例如,上述的输入文本字符串可能不和文本字符串“The parent isholding the baby”匹配。出于常规记号化方法的这些缺点,一种编有记号化文本中隐含的语义关系的记号化器应该是非常实用的。
本发明目的是利用一种改进的记号化器进行信息检索,该改进的记号化器分析输入文本以确定逻辑形式,接着利用超属词扩展逻辑形式。当和常规信息检索索引结构以及查询一起使用时,本发明减少标识出现不同的含意以及标识出现词之间带有不同的关系的次数,并且增加标识出现使用不同的但在语义上相关的用语的次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/98804175.8/2.html,转载请声明来源钻瓜专利网。