[发明专利]为检索对多个文档进行预处理及呈现检索结果的方法和装置有效
申请号: | 200610126579.1 | 申请日: | 2006-08-29 |
公开(公告)号: | CN101136018A | 公开(公告)日: | 2008-03-05 |
发明(设计)人: | 费贲;张俐;王庆波;苏中 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中咨律师事务所 | 代理人: | 李峥;于静 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检索 文档 进行 预处理 呈现 结果 方法 装置 | ||
技术领域
本发明涉及信息处理技术,具体地,涉及为检索对多个文档进行预处理的方法和装置、呈现检索结果的方法和装置及包括这些装置的搜索文档的系统。
背景技术
目前,搜索引擎一般都通过从检索得到的文档中截取与用户所输入的查询关键字最邻近的部分的内容来生成该文档的文档描述(snippet),以作为查询结果呈现给用户。文档描述能够使用户获得对根据查询关键字而检索得到的文档的大致主题的立即认知,从而用户可根据自己的需要确定该文档是否与其查询有关。目前的搜索引擎的这种用于生成文档描述的方法称作基于最邻近词的文档描述生成方法。
但是,基于最邻近词的文档描述生成方法并不能向用户提供检索得到的文档的结构的整体概观,从而使得所生成的文档描述忽略了文档的粒度(文档的层次结构)信息。尤其对于在企业环境内普遍存在的例如学术材料、项目白皮书等篇幅较长的文档来说,基于最邻近词的文档描述生成方法更不能向查询用户提供被检索得到的这些文档的充分概要信息,从而无法帮助用户快速理解这些文档的大致内容。
因此,需要提出一种新的生成文档描述进而呈现检索结果的方法,以向查询用户提供检索得到的文档的整体概观,从而使用户能够快速理解该文档的大致内容,以确定该文档与其查询的相关性,进而提高用户对检索结果的浏览速度。
发明内容
本发明正是鉴于上述现有技术中的问题提出的,其目的在于提供为检索对多个文档进行预处理的方法和装置、呈现检索结果的方法和装置以及包括这些装置的搜索文档的系统,以便能够在文档检索中向用户呈现检索结果中的各文档的树状描述,从而使用户立即获得对检索得到的文档的整体认知,从而提高对检索结果的浏览速度。
根据本发明的一个方面,提供了一种为检索对多个文档进行预处理的方法,包括:为上述多个文档中的每一个,生成表示该文档的内容的树结构,该树结构包括至少一个节点;以及为上述多个文档生成用于检索的索引,该索引的每个条目中表明与该条目相关联的至少一个文档以及该文档的树结构中相关联的至少一个节点。
根据本发明的另一个方面,提供了一种呈现检索结果的方法,该检索结果包括至少一个候选的文档,并且该至少一个文档的每一个被指定了一个表示其内容的树结构,该树结构包括至少一个节点,该方法包括:呈现该检索结果中上述至少一个候选文档对应的树结构的至少一部分。
根据本发明的再一个方面,提供了一种搜索文档的方法,包括:根据用户的查询(query)检索得到多个候选文档;以及利用上述的呈现检索结果的方法,呈现上述检索的结果。
根据本发明的一个方面,提供了一种为检索对多个文档进行预处理的装置,包括:树结构生成单元,其为上述多个文档中的每一个,生成表示该文档的内容的树结构,该树结构包括至少一个节点;以及索引生成单元,其为上述多个文档生成用于检索的索引,该索引的每个条目中表明与该条目相关联的至少一个文档以及该文档的树结构中相关联的至少一个节点。
根据本发明的另一个方面,提供了一种呈现检索结果的装置,该检索结果包括至少一个候选的文档,并且该至少一个文档的每一个被指定了一个表示其内容的树结构,该树结构包括至少一个节点,该装置包括:树结构获取单元,其至少获取该检索结果中上述至少一个候选文档对应的树结构的至少一部分;以及呈现单元,其呈现上述树结构获取单元获得的上述至少一个候选文档对应的树结构的至少一部分。
根据本发明的再一个方面,提供了一种搜索文档的装置,包括:检索单元,其根据用户的查询(query)检索得到多个候选文档;以及上述的呈现检索结果的装置。
根据本发明的再一个方面,提供了一种搜索文档的系统,包括:上述的为检索对多个文档进行预处理的装置;以及上述的搜索文档的装置。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是示出根据本发明实施例的搜索文档的方法的流程图;
图2是示出根据本发明实施例的为检索对多个文档进行预处理的方法的流程图;
图3是示出根据本发明实施例的为检索对多个文档进行预处理的方法中根据内容目录生成文档的树结构的方法的示意图;
图4是示出根据本发明实施例的为检索对多个文档进行预处理的方法中根据字体标签生成文档的树结构的方法的示意图;
图5是示出根据本发明实施例的为检索对多个文档进行预处理的方法中根据检索历史生成文档的树结构的方法的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610126579.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效澄清水处理装置
- 下一篇:一种具有互锁结构的按钮主令控制开关