[发明专利]一种基于单字索引系统的检索方法和装置有效
申请号: | 201110147520.1 | 申请日: | 2011-06-02 |
公开(公告)号: | CN102810096A | 公开(公告)日: | 2012-12-05 |
发明(设计)人: | 杨栋 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 单字 索引 系统 检索 方法 装置 | ||
技术领域
本发明涉及搜索引擎技术,特别涉及一种基于单字索引系统的检索方法和装置。
背景技术
随着网络的迅速普及,信息海量增加。搜索引擎技术的出现使得人们能方便快捷地在这些海量信息中找到自己所需要的各种信息。
单字索引系统作为检索目标信息的一种解决方案已得到广泛应用。单字索引系统包含众多预先建立的索引表(如附图1所示),每个索引表主要包含三列数据:一列是索引字符,这些字符绝大部分为单字形式,也有少部分字符是自然语言的词组、成语,甚至短句,检索语句根据索引字符查询索引表;第二列是与索引字符对应的包含该索引字符的文档的数目;第三列是与索引字符对应的包含该索引字符的所有文档的地址,这些文档称为索引文档。用户检索时只需输入检索语句,单字索引系统从检索语句中提取出检索字符,并根据该检索字符对应的索引字符查询索引表获取包含该索引字符的索引文档集,然后返回给用户完成检索。附图2所示为现有技术中单字索引系统进行检索的一个实例图。该实例进行检索的步骤包括:接收用户输入的检索语句,然后将该语句拆分为多个词组,再通过每个词组中单字对应的索引字符从预先创建的索引表中找到包含该单字的索引文档集,对这些文档集进行交集运算,从而得到包含该词组的文档集,接下来对各个词组的文档集进行同样的交集运算,进而得到包含这些词组的最后检索结果。该检索方法在获取词组的文档集时对词组中每个单字的索引文档进行交集运算,通常,每个单字对应的索引文档数量巨大,因此交集运算的运算对象的数量也颇为巨大,为得到检索结果,索引系统必须完成所有的交集运算,这势必大大增加检索时间,降低了单字索引系统的检索性能。
发明内容
有鉴于此,本发明提供一种基于单字索引系统的检索方法和装置,该方法和装置在获取每个检索单元的检索结果时,改变了检索结果的获取方式,不再对检索单元的所有索引文档集进行交集运算,以减少交集运算的运算对象的数量,缩短检索时间,提高单字索引系统的检索性能。
本发明提供的基于单字索引系统的检索方法包括:
接收检索语句;
提取所述检索语句的字符序列,并将该字符序列进行拆分得到检索单元,所述检索单元包括至少一个检索字符;
根据所述检索单元的检索字符查询索引表获得各检索字符对应的索引文档集;以所述索引文档集为处理对象,进行包括选择操作在内的处理,并将处理结果作为该检索单元的检索结果;
对所述各检索单元的检索结果进行交集运算并返回结果文档集;
用所述各检索单元扫描所述结果文档集以判断所述结果文档集的文档是否包含所述各检索单元,如果是,则返回该文档。
本发明还提供了一种基于单字索引系统的检索装置,该装置包括:
检索语句接收模块、字符序列提取与拆分模块、索引文档集获取模块、索引文档集处理模块、交集运算模块和判断模块,其中:
所述检索语句接收模块,用于接收检索语句;
所述字符序列提取与拆分模块,用于提取所述检索语句的字符序列,并将该字符序列进行拆分得到检索单元,所述检索单元包括至少一个检索字符;
所述索引文档集获取模块,用于根据所述检索单元的检索字符查询索引表获得各检索字符对应的索引文档集;
所述索引文档集处理模块,用于以所述索引文档集为处理对象,进行包括选择操作在内的处理,并将处理结果作为该检索单元的检索结果;
所述交集运算模块,用于对所述各检索单元的检索结果进行交集运算并返回结果文档集;
所述判断模块,用所述各检索单元扫描所述结果文档集以判断所述结果文档集的文档是否包含所述各检索单元,如果是,则返回该文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110147520.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据安全操作方法及通信终端
- 下一篇:一种多功能手表