[发明专利]一种文本检索的方法及装置有效
申请号: | 200910088750.8 | 申请日: | 2009-07-10 |
公开(公告)号: | CN101599078A | 公开(公告)日: | 2009-12-09 |
发明(设计)人: | 袁哲 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京凯特来知识产权代理有限公司 | 代理人: | 郑立明 |
地址: | 518028广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 检索 方法 装置 | ||
技术领域
本发明涉及一种文本检索的方法及装置,属于网络通讯技术领域。
背景技术
目前常用的文本检索的方法有归并查找的方法和位图打点的方法,这两种方法都是根据各文本的编码顺序确定文本地址,且只建立了标题索引和全文索引,并同时根据标题索引和全文索引进行检索,由于文本地址只是由编码顺序确定,导致在文本读取不完全的情况下,有些重要的文本没有被检索到,从而影响了检索的准确率,采用对标题索引和全文索引一起检索的方式,导致检索时间过长,从而影响了系统的检索性能。
发明内容
本发明提供了一种文本检索的方法及装置,以解决现有技术中存在在文本读取不完全的情况下,有些重要的文本不能被检索到,同时采用标题索引和全文索引一起检索的方式,导致检索时间过长,从而影响了检索的准确率和系统的检索性能的问题,为此本发明采用如下的技术方案:
本发明实施例提供了一种文本检索的方法,包括,
生成编码信息,并根据文本库中的文本权重确定文本地址,所述编码信息用于指示文本的顺序;
根据生成的编码信息和确定的文本地址建立索引项,所述索引项包括标题索引、全文索引、高频词标题位图、高频词全文位图和超高频词文本偏移地址位图;
根据查询的语素通过标题索引并根据超高频词文本偏移地址位图进行过滤后检索出对应文本,若检索的结果满足预定的要求,则结束检索;若检索的结果不满足预定的要求,则根据查询的语素通过全文索引并根据高频词标题位图和高频词全文位图进行过滤后检索出对应文本。
本发明实施例还提供了一种文本检索的装置,包括:
文本地址确定模块,用于生成编码信息,并根据文本库中的文本权重确定文本地址,所述编码信息用于指示文本的顺序;
索引项确定模块,用于根据文本地址确定模块生成的编码信息和确定的文本地址建立索引项,所述索引项包括标题索引、全文索引、高频词标题位图、高频词全文位图和超高频词文本偏移地址位图;
检索模块,用于根据查询的语素通过索引项确定模块中的标题索引并根据超高频词文本偏移地址位图进行过滤后检索出对应文本,若检索的结果满足预定的要求,则结束检索;若检索的结果不满足预定的要求,则根据查询的语素通过索引项确定模块中的全文索引并根据高频词标题位图和高频词全文位图进行过滤后检索出对应文本。
综上所述的一种文本检索的方法及装置,所述标题索引,用于记录标题对应文本的编码信息和文本地址;所述全文索引,用于记录全文对应文本的编码信息和文本地址,所述全文包括标题和内容;所述高频词标题位图,用于记录各高频词出现在标题的对应文本的编码信息和文本地址;所述高频词全文位图,用于记录各高频词出现在全文的对应文本的编码信息和文本地址;所述超高频词文本偏移地址位图,用于记录各超高频词出现在标题的对应文本中占据文本地址最大的文本在标题索引的文本地址中的偏移地址;所述高频词表示文本覆盖率在预定区间内的词,所述超高频词表示文本覆盖率超过所述预定区间内最大值的词。
本发明实施方式提供的技术方案在标题索引和全文索引的基础上增加了高频词标题位图、高频词全文位图和超高频词文本偏移地址位图,在检索的过程中先通过标题索引和超高频词文本偏移地址位图检索,当检索的结果不符合预定的要求时再通过全文索引、高频词标题位图、高频词全文位图进行检索,这样能够加快检索的速度,从而提高了检索的准确率和系统的检索性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例所述的一种文本检索方法的流程示意图;;
图2是本发明实施例所述的根据文本库中的文本权重确定文本地址的流程示意图;
图3是本发明实施例所述的根据查询的语素通过标题索引并根据超高频词文本偏移地址位图进行过滤后检索出对应文本的流程示意图;
图4是本发明实施例所述的根据查询的语素通过全文索引并根据高频词标题位图和高频词全文位图进行过滤后检索出对应文本的流程示意图;
图5是本发明实施例所述的具体实施例一具体检索过程的流程示意图;
图6是本发明实施例所述的一种文本检索装置的结构示意图;
图7是本发明实施例所述的文本地址确定模块1具体的结构示意图1;
图8是本发明实施例所述的检索模块3具体的结构示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910088750.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:改进的候选药物及其制备方法
- 下一篇:免漂洗织物软化剂