[发明专利]一种文本检索的方法及装置有效

专利信息
申请号: 200910088750.8 申请日: 2009-07-10
公开(公告)号: CN101599078A 公开(公告)日: 2009-12-09
发明(设计)人: 袁哲 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京凯特来知识产权代理有限公司 代理人: 郑立明
地址: 518028广东省深*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 检索 方法 装置
【说明书】:

技术领域

发明涉及一种文本检索的方法及装置,属于网络通讯技术领域。

背景技术

目前常用的文本检索的方法有归并查找的方法和位图打点的方法,这两种方法都是根据各文本的编码顺序确定文本地址,且只建立了标题索引和全文索引,并同时根据标题索引和全文索引进行检索,由于文本地址只是由编码顺序确定,导致在文本读取不完全的情况下,有些重要的文本没有被检索到,从而影响了检索的准确率,采用对标题索引和全文索引一起检索的方式,导致检索时间过长,从而影响了系统的检索性能。

发明内容

本发明提供了一种文本检索的方法及装置,以解决现有技术中存在在文本读取不完全的情况下,有些重要的文本不能被检索到,同时采用标题索引和全文索引一起检索的方式,导致检索时间过长,从而影响了检索的准确率和系统的检索性能的问题,为此本发明采用如下的技术方案:

本发明实施例提供了一种文本检索的方法,包括,

生成编码信息,并根据文本库中的文本权重确定文本地址,所述编码信息用于指示文本的顺序;

根据生成的编码信息和确定的文本地址建立索引项,所述索引项包括标题索引、全文索引、高频词标题位图、高频词全文位图和超高频词文本偏移地址位图;

根据查询的语素通过标题索引并根据超高频词文本偏移地址位图进行过滤后检索出对应文本,若检索的结果满足预定的要求,则结束检索;若检索的结果不满足预定的要求,则根据查询的语素通过全文索引并根据高频词标题位图和高频词全文位图进行过滤后检索出对应文本。

本发明实施例还提供了一种文本检索的装置,包括:

文本地址确定模块,用于生成编码信息,并根据文本库中的文本权重确定文本地址,所述编码信息用于指示文本的顺序;

索引项确定模块,用于根据文本地址确定模块生成的编码信息和确定的文本地址建立索引项,所述索引项包括标题索引、全文索引、高频词标题位图、高频词全文位图和超高频词文本偏移地址位图;

检索模块,用于根据查询的语素通过索引项确定模块中的标题索引并根据超高频词文本偏移地址位图进行过滤后检索出对应文本,若检索的结果满足预定的要求,则结束检索;若检索的结果不满足预定的要求,则根据查询的语素通过索引项确定模块中的全文索引并根据高频词标题位图和高频词全文位图进行过滤后检索出对应文本。

综上所述的一种文本检索的方法及装置,所述标题索引,用于记录标题对应文本的编码信息和文本地址;所述全文索引,用于记录全文对应文本的编码信息和文本地址,所述全文包括标题和内容;所述高频词标题位图,用于记录各高频词出现在标题的对应文本的编码信息和文本地址;所述高频词全文位图,用于记录各高频词出现在全文的对应文本的编码信息和文本地址;所述超高频词文本偏移地址位图,用于记录各超高频词出现在标题的对应文本中占据文本地址最大的文本在标题索引的文本地址中的偏移地址;所述高频词表示文本覆盖率在预定区间内的词,所述超高频词表示文本覆盖率超过所述预定区间内最大值的词。

本发明实施方式提供的技术方案在标题索引和全文索引的基础上增加了高频词标题位图、高频词全文位图和超高频词文本偏移地址位图,在检索的过程中先通过标题索引和超高频词文本偏移地址位图检索,当检索的结果不符合预定的要求时再通过全文索引、高频词标题位图、高频词全文位图进行检索,这样能够加快检索的速度,从而提高了检索的准确率和系统的检索性能。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例所述的一种文本检索方法的流程示意图;;

图2是本发明实施例所述的根据文本库中的文本权重确定文本地址的流程示意图;

图3是本发明实施例所述的根据查询的语素通过标题索引并根据超高频词文本偏移地址位图进行过滤后检索出对应文本的流程示意图;

图4是本发明实施例所述的根据查询的语素通过全文索引并根据高频词标题位图和高频词全文位图进行过滤后检索出对应文本的流程示意图;

图5是本发明实施例所述的具体实施例一具体检索过程的流程示意图;

图6是本发明实施例所述的一种文本检索装置的结构示意图;

图7是本发明实施例所述的文本地址确定模块1具体的结构示意图1;

图8是本发明实施例所述的检索模块3具体的结构示意图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910088750.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top