[发明专利]一种基于定制的索引建立方法、装置和系统有效
申请号: | 200810214333.9 | 申请日: | 2008-09-02 |
公开(公告)号: | CN101667183A | 公开(公告)日: | 2010-03-10 |
发明(设计)人: | 郑小林;唐炜;方勇;陈德人 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 310058浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 定制 索引 建立 方法 装置 系统 | ||
技术领域
本发明涉及信息检索技术领域,尤其涉及一种基于定制的索引建立方法、 装置和系统。
背景技术
目前,随着网络的发展,越来越多的信息检索系统已经成熟应用于互联 网、电子商务等领域中,信息检索系统通常采用搜索引擎流行的倒排索引的 检索结构,以服务的方式嵌入到现代服务行业的站点中去,作为站内搜索的 有利工具。但是,随着站点业务流程越来越复杂,数据的积累越来越多,对 信息检索的高效率要求也就越来越迫切了;其中,要求较高的应用领域主要 包括:图书馆数据库、情报数据库、专利数据库、医药数据库、办公自动化、 历史资料库、电子出版系统等等。
然而,不同服务行业间的信息检索的数据结构存在着很大的不同,而从 不同行业的不同数据库的海量数据中检索到的数据也是有着千差万别的,如 果检索服务从一个行业移到另外一个行业,甚至从一个数据库到另外一个数 据库,就需要很大的人力来配置和重新开发部署,这就容易造成冗余的成本 开销,且不利于服务行业信息检索越来越复杂的需求。
此外,目前的信息检索系统普遍缺乏可定制性;系统的各种域结构以及 面向的需要建立索引的数据结构往往固化在整个系统中,整个系统只能针对 某一个领域中的某一种特定的数据结构建立索引,使得系统缺乏灵活性;例 如新闻域,当用户搜索新闻的时候,往往搜索的是新闻标题、发布时间或者 内容,而对于单一的检索系统,系统在设计时将新闻域的各种信息固化在新 闻检索系统中;而当用户需要进行人才信息检索的时候,搜索的关键词语可 能是人的名字、受教育程度等,这就需要对与新闻完全不同的域结构进行检 索,而在传统的将各种域结构固化在系统中的检索系统来讲,显然是不可行 的;同时,对于设置好的各种域结构信息,其所对应的同类型数据库定义也 千差万别,例如两个完全不同的新闻数据库A和B,A数据库中的新闻信息 的表结构以及字段名称与B数据库中的新闻信息的表结构以及字段名称完全 不同,在A数据库中以news_title字段代表新闻的标题,而在B数据库中以 title字段代表新闻的标题;虽然这两个字段的名称不一样,但是其实质内容毫 无差别,均表示新闻标题。
因此,对传统的检索系统来讲,由于其所面向的建立索引的数据结构往 往也是固化在系统中的,因此在对这两个不同结构的数据库在同一个域结构 上建立索引的过程中,往往需要针对各自不同的数据结构进行重新的系统开 发,而重新开发的系统往往具有很多雷同的逻辑操作,例如读取数据库、建 立新闻索引等,这就容易造成资源的大量浪费。
发明内容
有鉴于此,本发明解决的问题是提供一种基于定制的索引建立方法、装 置和系统,增加了检索系统的通用性和适用范围,实现了索引过程中的高度 可定制化。
为解决上述问题,本发明提供的技术方案如下:
一种基于定制的索引建立方法,包括:
接收索引建立请求;所述请求中至少包括各数据库服务器的链接信息和 数据库中的定制文件名称,所述定制文件名称即为定制数据对应的域结构信 息以及所述数据库与该域结构的映射信息;
根据所述请求的数据库服务器的链接信息从数据库服务器中读取指定的 数据;
根据所述请求中包含的定制文件名称从定制信息服务器中读取用户定制 数据的域结构信息,以及根据所述请求中包含的数据库与域结构的映射信息 从定制信息服务器中读取所述用户定制数据所在的数据库与该域结构的映射 信息;
利用所述映射信息对读取到的数据进行封装,并根据读取到的域结构信 息将封装后的数据写入到索引服务器后建立索引。
优选的,所述索引建立请求至少包括各数据库服务器的链接信息和数据 库中的定制文件名称。
优选的,根据所述索引建立请求中的数据库服务器的链接信息从各数据 库服务器中读取指定的数据;
根据所述索引建立请求中包含的定制文件名称从定制信息服务器中读取 所述用户定制数据的域结构信息和所述数据库与该域结构的映射信息。
优选的,所述域结构信息至少包括域名称、域描述、关键词名称链表、 标题名称链表、内容字段链表以及字段信息。
优选的,所述字段信息至少包括字段名称、字段描述、字的类型、字段 的存储方式以及索引方式。
优选的,该方法还包括:
在定制信息服务器中执行域结构信息的定制操作;所述定制操作至少包 括删除、修改和新建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810214333.9/2.html,转载请声明来源钻瓜专利网。