[发明专利]模糊查询方法、装置及查询系统在审
申请号: | 201710372075.6 | 申请日: | 2017-05-24 |
公开(公告)号: | CN107436911A | 公开(公告)日: | 2017-12-05 |
发明(设计)人: | 贾新禹 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京三友知识产权代理有限公司11127 | 代理人: | 李辉 |
地址: | 英属开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模糊 查询 方法 装置 系统 | ||
技术领域
本申请属于计算机数据查询技术领域,尤其涉及一种模糊数据查询方法、装置及查询系统。
背景技术
分词搜索是现有信息检索常用的一种信息检索方式,主要是将一段文本按照一定的规则进行切分变成一串单词,每个单词作为最小的索引单位。随着信息检索技术的不断发展,业内不在满足于分词搜索,更期望于海量数据下的模糊查询(或者称为模糊搜索)。
所述的模糊查询通常是指用关键字模糊查找,如查询线路名称“苏杭三日特色游”,关键字可为“苏杭”、“苏”、“杭”、“日特”、“色游”等。从20世纪70年代至今,已经有了各种形形色色的模糊查询方法,业内多数的模糊查询是用在网络安全上,通常查询包含特定字符串的cookie进行搜索等。目前常用的模糊查询方法主要包括两大类。一种是利用k-gram(如将一段长为l的文本切割成(l-k+1)个长度为k的词,如abcdefg按照3-gram切分,则为abc bcd cde def efg)结合后过滤,主要过程包括通过将原始语句和查询语句处理成k-gram,然后取出所有包含候选集,再逐一进行比对。另一种是利用轮排索引结合B树(将一个词旋转为多个词,这些词和原有词之间的映射关系称为轮排索引,如ok的轮排索引可以为(ok$,k$o,$ok)->ok),然后进行匹配前缀。但利用k-gram的方法受限于k的选取,如果k过小,则后过滤复杂度过高,如果k过大,则查询颗粒又太大,精准查询无保障。而k的选取因为自身算法往往难以确定合理的取值,通常需要大量的取值尝试或丰富的经验,实现难度较高。而利用轮排索引容易造成索引膨胀,因为一个长为l的词会产生l个轮排,利用b树匹配前缀,效率过低。并且,上述两种方式均需要额外对IR(Information Retrieval信息检索)系统进行较大的改造,来适应复杂的后校验或前缀匹配算法。
现有中类似上述的模糊搜索方法需要额外的对IR系统进行较大改造,实现难度和复杂度较高,额外处理工作量较大,并且算法本身查询速度和精度也难以保障。
发明内容
本申请目的在于提供一种模糊查询方法、装置及查询系统,降低模糊查询的实现难度和复杂度、提高查询速度,减少对原有IR系统入侵,提高系统性能。
本申请提供的一种模糊查询方法、装置及查询系统是这样实现的:
一种模糊查询方法,所述方法包括:
提供单字符倒排索引,所述单字符倒排索引包括将文档分割为单个字符后存入倒排索引构建生成;
获取查询字符串,将所述查询字符串分割为单个字符,以所述单个字符作为词组在所述单字符倒排索引中进行词组匹配方式查询。
一种模糊查询装置,所述装置包括:
单字符倒排索引模块,用于存储构建的单字符倒排索引,所述单字符倒排索引包括将文档分割为单个字符后存入倒排索引构建生成;
查询模块,用于获取查询字符串,将所述查询字符串分割为单个字符,以所述单个字符作为词组在所述单字符倒排索引中进行词组匹配方式查询。
一种模糊查询装置,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取查询字符串,将所述查询字符串分割为单个字符,以所述单个字符作为词组在单字符倒排索引中进行词组匹配方式查询,所述单字符倒排索引包括将文档分割为单个字符后存入倒排索引构建生成。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现以下步骤:
提供单字符倒排索引,所述单字符倒排索引包括将文档分割为单个字符后存入倒排索引构建生成;
获取查询字符串,将所述查询字符串分割为单个字符,以所述单个字符作为词组在所述单字符倒排索引中进行词组匹配方式查询。
一种模糊查询系统,包括存储单字符倒排索引的存储单元、处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取查询字符串,将所述查询字符串分割为单个字符,以所述单个字符作为词组在所述单字符倒排索引中进行词组匹配方式查询,所述单字符倒排索引包括将文档分割为单个字符后存入倒排索引构建生成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710372075.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据查询方法和装置
- 下一篇:咬合杆