[发明专利]一种用于搜索引擎的统一信息检索智能体系统与方法无效

专利信息
申请号: 201010132156.7 申请日: 2010-03-25
公开(公告)号: CN102200974A 公开(公告)日: 2011-09-28
发明(设计)人: 晋耀红 申请(专利权)人: 北京师范大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京万科园知识产权代理有限责任公司 11230 代理人: 杜澄心;张亚军
地址: 100875 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 搜索引擎 统一 信息 检索 智能 体系 方法
【说明书】:

技术领域

发明涉及搜索引擎系统,更具体地说,涉及一种实现可定制的、对结构化数据和非结构化数据能灵活配置检索策略的统一信息搜索引擎系统与方法。

背景技术

搜索引擎已经成为人们获取信息的重要手段。搜索引擎有针对普通网民的互联网搜索,也有为企业内部信息服务的企业搜索。互联网搜索的代表是google和百度,他们每天都处理上亿次的搜索请求,以至于他们已经成为搜索的代名词。企业搜索比较成功的是Autonomy公司,它在美国占领了50%以上的市场,国内比较成功的是TRS(北京拓而思)公司。

目前搜索引擎所采用的技术,基本是以全文检索为主的。其一般原理就是利用倒排文件的技术,将待搜索的文字文本建立索引,然后利用关键词匹配的检索技术,从索引库中,把包含相关关键词的内容返回给用户。互联网搜索都是利用网络蜘蛛spider技术,抓取互联网上的网页,然后对其建立索引。而企业搜索则需要面对企业内部存储在各种数据库、各种介质上的数据进行整合搜索。

随着搜索引擎的普及,人们对搜索引擎的期望也越来越高,人们希望搜索引擎能搜索更多的内容,包括一些存储在企业内部的数据,比如统计数据等。同时人们也希望搜索引擎能更智能,能猜测用户的搜索意图,针对不同的检索请求,搜索不同的数据。因此,互联网搜索也面临着整合各种数据资源,为每种资源提供特色搜索的用户需求。针对这些需求,搜索引擎提供商也在不断改善搜索技术,google提出整合搜索,近期google在美国也推出统计数据的搜索。百度更是提出针对“暗网”数据(搜索引擎的网络蜘蛛抓取不到的数据)的“阿拉丁”搜索开放平台计划,开放数据接口,允许数据拥有者向百度搜索引擎提交自己的数据,百度对这些数据进行索引和搜索。近期,百度也提出“框计算”,希望“一框搜天下”,为用户提供一个智能的、统一的搜索入口。

不管是google的整合搜索,还是百度的“阿拉丁”和“框计算”,都还是只能针对各种数据内容中的文本信息进行关键词搜索,并不能为不同的数据内容配置不同的检索策略,提供一些个性化的分析和搜索。比如百度的搜索开放平台,只能“提交结构化的数据”,而且需要数据提供者“指定关键词”(见http://open.baidu.com/2009-11-23),百度只负责对这些关键词进行检索匹配。

国外也有一些搜索引擎,比如PowerSet、Hakia等,加入了一些自然语言理解的技术,希望能更好的解析用户的搜索请求和待搜索的文本,虽然给用户的搜索体验有所改善,但是他们有的搜索范围限定很窄(比如PowerSet只能搜索Wikipidea),有的搜索效果还需要改善。同时,这些搜索引擎也面临着如何和google、百度之类的通用搜索融合的问题。

企业搜索中,虽然能对各种数据格式的信息进行处理,但是一般也是针对不同的数据格式,开发不同的检索算法,并没有提供一个统一的检索架构,不能灵活配置。这大大限制了搜索引擎的灵活性,增加了开发成本。

发明内容

本发明的目的在于提供一种用于搜索引擎的统一信息检索智能体系统与方法,以解决传统的搜索引擎不能猜测用户的搜索意图进行定制、对结构化数据和非结构化数据也不能灵活配置检索策略;针对不同的数据格式,需要开发不同的检索算法,不能提供一个统一的检索架构等技术问题。

本发明所述的一种用于搜索引擎的统一信息检索智能方法,构造一种信息检索智能体,该智能体负责对不同的数据,配置不同的检索策略,并配置相应的分析模块、索引模块和检索模块,搜索引擎根据智能体处理模块的配置,在索引和检索时进行不同的调度,从而实现搜索引擎的可定制;对于搜索引擎的索引过程和检索过程,都增加了相应的智能体处理模块;索引建立过程,就是根据数据映射和智能体配置,调用相应的分析系统和索引系统,把非结构化数据或结构化数据,转换成索引库中的不同的索引;搜索过程,就是接收用户的搜索请求,根据数据映射和智能体配置,调用相应的分析系统,进行搜索请求分析;并根据搜索请求,调用相应的检索系统,从索引库中,得到结果集;最后合并结果集,并生成相关性排序的检索结果。

本发明所述的一种用于搜索引擎的统一信息检索智能系统,该系统包括:

包含一个智能体映射文件,用于把用户的结构化数据和非结构化数据映射到相应的智能体模块上的数据-智能体映射模块;

包含若干分析器模块,实现对不同数据的分析的分析系统;

包含智能体索引调度模块的用于所有索引功能的汇总,负责构建引擎后台的索引库的索引系统,其中包含若干索引器模块;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学,未经北京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010132156.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top