[发明专利]数据检索的方法和系统有效
申请号: | 200810169830.1 | 申请日: | 2008-09-28 |
公开(公告)号: | CN101685455A | 公开(公告)日: | 2010-03-31 |
发明(设计)人: | 徐惠;高志强;戴昌林;朱望斌;陈世宏 | 申请(专利权)人: | 华为技术有限公司;东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中博世达专利商标代理有限公司 | 代理人: | 申 健 |
地址: | 518129广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 检索 方法 系统 | ||
1.一种数据检索的方法,其特征在于,包括以下步骤:
通过网络获取电子文档,从所述电子文档中提取领域术语;
计算提取的领域术语之间的相似度;
将相似的领域术语以限定分支的方式逐层聚类,建立索引列表,所述限定 分支的方式为:预先确定每个节点的子节点数量;
存储所述索引列表;
信息检索模块利用所述索引列表进行信息检索;
其中,所述从电子文档中提取领域术语包括:
从电子文档中提取标题、摘要和关键词;
对所述提取的标题、摘要和关键词进行解析,得到名词短语;
将所述得到的名词短语中属于预定停用词表中的名词短语滤除;
将滤除后剩下的名词短语归纳到已有的领域本体或分类体系之下;
设定词频阈值和长度阈值;
如果所述名词短语与已有的领域本体或分类体系中的术语共现的频率高于 所述词频阈值,将该名词短语选定为领域术语,加入领域术语集合;
如果所述名词短语与已有的领域本体或分类体系中的术语共现的频率不高 于所述词频阈值,判断所述名词短语的长度是否长于长度阈值,如果所述名词 短语的长度长于长度阈值,将所述名词短语拆分,将拆分得到的新名词短语同 已有的领域本体或分类体系中的术语共现的频率,与词频阈值比较;如果所述 名词短语的长度等于或短于长度阈值,删除所述名词短语。
2.根据权利要求1所述的数据检索的方法,其特征在于,所述存储的索引 列表使用本体编辑工具进行编辑。
3.根据权利要求2所述的数据检索的方法,其特征在于,信息检索模块利 用索引列表进行信息检索的步骤包括:
接收用户查询请求;
提取用户查询请求的关键词;
扩充关键词列表;
根据关键词对索引列表进行检索;
对检索到的文档进行排序;
向用户返回检索结果。
4.根据权利要求3所述的数据检索的方法,其特征在于,所述计算提取的 领域术语之间的相似度的步骤包括:
计算提取的领域术语之间的关联关系值;
计算提取的领域术语之间的非分类关系值;
计算提取的领域术语之间的兄弟关系值;
通过关联关系值、非分类关系值和兄弟关系值,计算提取的领域术语之间 的相似度值。
5.根据权利要求4所述的数据检索的方法,其特征在于,还包括将意义相 同的领域术语合并,其步骤包括:
以句法模式对提取的领域术语进行合并条件判断;
设定相似度阈值,对于经句法模式判断,符合合并条件的领域术语,如果 这些领域术语之间的相似度值高于相似度阈值,用其中一个领域术语代替与其 相似度高于相似度阈值的所有提取的领域术语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;东南大学,未经华为技术有限公司;东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810169830.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置