[发明专利]具有自动预过滤和路径选择的协作式主题服务器无效
申请号: | 99805477.1 | 申请日: | 1999-12-15 |
公开(公告)号: | CN1307704A | 公开(公告)日: | 2001-08-08 |
发明(设计)人: | 程以宁 | 申请(专利权)人: | 皇家菲利浦电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 吴立明,陈景峻 |
地址: | 荷兰艾*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 自动 过滤 路径 选择 协作 主题 服务器 | ||
本发明涉及数据处理和交换领域,特别是文件的存储、组织和获取领域。
可供访问的信息量在不断增加,并且信息量的增加速率也在加大。这种不断增加的信息增长,导致了用来存储、组织和获取信息的不断膨胀的资源。
传统的搜索引擎,例如因特网上用来查找文件的搜索引擎,使用了各种技术响应用户查询以快速找到用户要求的文件。其中的一种技术便是建立一个对应于万维网上文件的索引数据库。通过找出用户请求和索引数据库中信息的某种联系,完成用户请求的处理,而不是真的到万维网上去找来响应用户请求。传统的搜索引擎使用一种“爬行器(crawler)”来定位文件或更新文件。一旦一个新的或是更新的文件被定位,搜索引擎便生成一个对应于该文件的目录,其中包括比如文件中最常见单词和词组的列表。还存在一些可以代替以上步骤的技术,即让文件的创建者在文件中直接增添一些关键词或词组,而这些词或词组用来给文件编制索引。为了方便起见,下文中的关键字一词就指文件索引中包含的某个词,而不管将其放置在索引中的方法。当用户输入一个查询,搜索结果依据用户查询中的词和文件索引中的关键词的匹配。本领域的技术人员可以理解一个文件的目录可能较大,万维网上基本上所有文件的索引数据库实际上极其庞大,而且将以不断增长的速率继续增加。1998年,因特网上每天约增加150万页,并且每天增速预计将继续扩大。除了增加了的存储资源的代价外,随着数据库的扩张数据库查找技术的性能在下降。
随着包含某个关键词的文件越来越多,依据关键词查找的文件获取效率越来越低,也越来越不可行。在因特网上一次关键词查找返回成千上万与此关键词相关的文件不足为奇,而其中的很多和用户的查询并无关联。为了减少对于关键词被识别文件的数目,用户必须增加提供额外的关键词或词组来增加搜索参数。可是这样做,如果用户没有选择文件中的相同词语,与用户请求有关的文件又可能被排除在外。搜索引擎可以通过在用户查询自动增加同义词从而增强性能,不过如此增加又将加剧所识别文件与用户查询无关的问题,尽管这些文件也包含了这些关键词。
主题式分类为查找与用户请求相关的文件提供了一种选择更精细的方法,因为那些与用户请求具有相同主题的文件要比那些仅仅包含匹配单词集合的文件更具备相同的信息。不过,确定文件的一个或多个主题比确定文件包含的词更复杂。传统上,主题的确定是一项人工密集的任务,需要很多人阅读和分类每个文件。信息科学领域中,基于统计学的算法和神经网,以及基于遗传学的算法,和自动分类相似文件的研究方面不断取得进展。主题分类也为一般的浏览提供了一种高效的方法,用户既可以选择感兴趣的主题又可以选取不感兴趣的主题控制浏览过程。
对于可以通过主题分类的文件,那种基于关键词的文件组织、存储和获取技术并不理想或令人满意。仅仅用主题词组代替关键词的搜索引擎,并不能为不断增加的信息量提供所需的搜索和存储上的改进。传统的方式是建立越来越大的引擎和对应与网上每个文件的索引数据库,这种索引是基于单词或词组在文件中出现的频率,这种方法对于组织和获取基于主题的文件可能完全不可行。主题决定技术的一个不加选择的应用,举例来说,也许仅仅是建立一个甚至更大的词汇集,用户必须使用这些词汇来筛选相关文件,其固有的危险是用户可能选择不同与文件索引中的词或词组。因为大多数文件包含多个主题,额外主题信息加进已有索引实质上也将增加存放这些信息的数据库的大小。
本发明的一个目的是提供一种信息组织和获取系统,以有效组织文件从而基于主题内容快速和高效的查找、获取。本发明进一步的目的是提供一种可以增强的信息组织和获取系统。本发明另一个目的是提供一种支持上下文敏感搜索和获取技术的信息组织和获取系统。本发明还有一个目的,即提供这样一种信息组织和获取系统,它允许用户使用不同于用来组织这些信息的单词。
这些目标即其他目标的达到,是通过提供一种信息组织和获取系统,该系统优化为仅获取那些与给定的一组主题相关的文件。本发明提供了一种方法和设备,通过协作式主题信息服务器网络,完成文件的自动预筛选和路径选择。信息服务器用来根据所选主题组组织和获取文件。所选的该组主题组织成具有多个重叠的分层结构,和一个分布式软件结构用来支持基于主题的信息组织、路径选择和获取服务。文件被自动预筛选以确定它们是否与所选主题组相关,只有相关的文件才被确认以供以后的获取。文件可能和一个或多个主题相关,它通过由信息服务器支持的主题分层结构与每个主题联系在一起。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皇家菲利浦电子有限公司,未经皇家菲利浦电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/99805477.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有独立分室温度控制的致冷系统
- 下一篇:照明装置