[发明专利]数据检索的方法和系统有效

专利信息
申请号: 200810169830.1 申请日: 2008-09-28
公开(公告)号: CN101685455A 公开(公告)日: 2010-03-31
发明(设计)人: 徐惠;高志强;戴昌林;朱望斌;陈世宏 申请(专利权)人: 华为技术有限公司;东南大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京中博世达专利商标代理有限公司 代理人: 申 健
地址: 518129广东省深*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 检索 方法 系统
【说明书】:

技术领域

发明涉及信息采集和处理领域,尤其涉及数据检索的方法和系统。

背景技术

在现有的语义Web、问答系统、特定领域的垂直搜索、信息抽取、图书馆管 理和信息检索等领域,经常需要将一些被认为有用的数据或词语从数据库中提 取出来,并根据这些数据或词语之间的关系建立相应的树形列表索引,以便于 用户对相关信息的查找。本体,是感兴趣领域的共享的概念化的显式规约。通 俗地讲,本体是用来描述某个领域甚至更广范围内的概念以及概念之间的关系, 使得这些概念和关系在共享的范围内具有大家共同认可的、明确的、唯一的定 义。自动或半自动构建本体的方法称为本体学习。

现有本体学习方法主要有5大类,包括:基于模式、基于关联规则、基于 概念聚类、基于本体演化和混合策略。其中,基于概念聚类的本体学习方法, 是利用概念之间的语义距离,对概念进行聚类。这样,同一类簇中的概念具有 语义近似的关系。目前最常见的聚类算法为层次聚类,聚类的结果就是概念间 的上下位关系。层次聚类算法按照方向可以分成两种:一种是自底向上的合并 聚类,初始时将每个元素作为一类,每一步将最相似的两个集合合并,直至最 终合并成一个集合;一种是自顶向下的分解聚类,初始时把全部的元素作为一个 集合,然后每一步将最不相似的两个集合分开。

在实现上述基于概念聚类的本体学习方法的过程中,发明人发现现有技术 中至少存在如下问题:基于概念聚类的本体学习方法中,树形结构的同级节点 按照一定顺序进行本体学习,先学习的同级节点会将与自身相似度高的概念全 部作为本节点的子节点。这样,后学习的同级节点尽管与一些先学习的同级节 点的子节点的相似度高,却无法将其作为自身的子节点(同级节点的子节点不 可交叉)。这会导致学到的本体树形结构不合理:节点分布极不平均,每个节点 的子节点个数不可控。这种树形结构的偏斜将会随着层级的增多而不断加大, 级数越多,偏斜情况越严重,基于这一结构的数据检索的准确性和完整性低。

发明内容

本发明的实施例提供一种数据检索的方法和系统,能够提高数据检索的准 确性和完整性。

为达到上述目的,本发明的实施例采用如下技术方案:

一种数据检索的方法,包括以下步骤:

通过网络获取电子文档,从所述电子文档中提取领域术语;

计算提取的领域术语之间的相似度;

将相似的领域术语以限定分支的方式逐层聚类,建立索引列表;

存储所述索引列表;

信息检索模块利用索引列表进行信息检索。

一种数据检索的系统,包括:

术语获取模块:用于通过网络获取电子文档,从所述电子文档中提取领域 术语;

相似度计算模块:用于计算所述术语获取模块提取的领域术语之间的相似 度;

聚类模块:用于将所述相似度计算模块判定的相似的领域术语,以限定分 支的方式逐层聚类,建立索引列表;

存储模块:用于存储所述索引列表;

信息检索模块:用于利用索引列表进行信息检索。

一种数据检索的方法,包括以下步骤:

通过逐层聚类的方式,建立索引列表;

存储所述索引列表;

信息检索模块利用索引列表进行信息检索。

一种数据检索的系统,包括:

聚类建立索引列表模块:用于通过逐层聚类的方式,建立索引列表;

存储模块:用于存储所述索引列表;

信息检索模块:用于利用索引列表进行信息检索。

本发明实施例提供的数据检索的方法、系统,在逐层聚类时,通过限定分 支的形式,限定了每个节点的子(父)节点数量,这样就有效避免了同级节点 中,先学习的节点大量占用后学习的节点的子(父)节点的问题,可以生成准 确性和完整性较高的,可以作为列表索引的树形结构,进而提高数据检索的准 确性和完整性。

附图说明

图1为本发明方法实施例一的流程图;

图2为本发明方法实施例二从电子文档中提取领域术语的步骤流程图;

图3为本发明方法实施例二计算提取的领域术语之间的关系的步骤流程图;

图4为本发明方法实施例二将有关系的领域术语以限定分支的方式逐层聚 类的步骤流程图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;东南大学,未经华为技术有限公司;东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810169830.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top