[发明专利]位标记字符串检索技术有效

专利信息
申请号: 200510057491.4 申请日: 2005-09-13
公开(公告)号: CN101488127A 公开(公告)日: 2009-07-22
发明(设计)人: 徐文新 申请(专利权)人: 徐文新
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 200433上海市杨浦区邯郸路*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 标记 字符串 检索 技术
【说明书】:

技术领域

发明涉及一种字符串模糊检索方法,快速有效地确定目的字符串可能存在的范 围,再使用已有的字符匹配方法定位目的字符串,适用于检索范围比较固定的字符串检索 领域。

背景技术

通常的字符串模糊检索采用逐位比较方式进行,如判断字符串S=“bdopfqew”中是否 包含字符f,计算机以主串S的第一个字符b与f进行比较,再以S的第二个字符d与f 进行比较,以此类推,直到S的第5个字符与f相同,匹配成功,这是最简单的情形。如 果子串T长度为2个字符以上,简单的模式匹配算法,即BF算法,是以S1与T1比较, 若不同则以S2与T1比较,依次类推,直到S的某一个字符Si与T1相同,再将它们之后的 Si+1与T1+1进行比较,若也相同,则继续往下比较,当S的某一个字符Si+n与T1+n不同时, 则返回,再以Si+1与T1作新一轮比较,重复以上过程,直到T中的字符全部比完,则匹 配成功,否则匹配失败。随着检索关键词T的长度增加,字符匹配的复杂程度相应增加。 改进后的模式匹配算法,即KMP算法,对小字符集的拼音文字来说,避免了回溯,但对 字符集大、单字符频度低的汉字字符串而言,实质意义不大。简而言之,BF算法与KMP 算法均是对主串和子串的字符进行逐位比较。

2004年本人提出“质数代换字符串检索技术”,该方法可以提高字符串模糊检索的 速度2-3倍,但对于长字符串实施该方法,需要较多的空间存贮质数乘积值。为了提高字 符串模糊检索的速度,并减少对存贮空间的需求,本发明提出用数据的n个位(bit)来标 记字符串的组成信息,标记后之后的数据称该字符串的“位值”,对两个字符串的位值进 行比较,并结合通常的字符逐位比较法,实现字符串的模糊检索。测试表明,速度是一般 的字符逐位比较模糊检索的数倍乃至十几倍以上。

发明内容

本发明是一种字符串检索技术,目的是提高字符串模糊检索的速度。以一个位(bit) 对应若干个字符元,以n个位对应全部字符元,也就是分全部字符元为n组,并用一个数 据的n个均为0的位,记为WF,来标记组成字符串的字符元信息。如果若干个字符串S 的一个字符元P1属于第n组,则相应地将W的第n个位标记为1,类似地,根据S其它 字符元P2、P3、P4…所属的组对W进行标记,完成全部字符元标记后的W,记录有S 的信息,称为S的“位值”,这种方式称为1标记。根据逻辑代数的原理,也可用一个数 据的n个均为1的位,记为来标记组成字符串的字符元信息。如果S的一个字符元 P属于第n组,则相应地将数据的第n个位标记为0,这种方式称为0标记。通过对Sa的“位值”Wa、与Sb的“位值”Wb、进行比较,可以判断Sb“不包含”、“包含” 或“可能包含”Sb的所有字符元。例如,对Wa与Wb进行位蕴含运算,如果所有的位都 有蕴含关系,则Sb包含或可能包含Sa的“所有字符元”。如果需要,再用通常的字符逐位 比较方法判断Sb是否包含“Sa”。以下简称本发明方法为“位标记检索”、“位标记字符串 检索”“位标记字符串检索技术”。

测试表明,位标记检索可以显著提高字符串的模糊检索速度。速度优势之外,位标 记检索的另一特点是多个关键词查询同单个关键词查询一样方便。位标记既可用于通常意 义的检索,即判断数据库字符串是否包含关键词,也可以作“逆检索”,判断关键词是否 包含数据库字符串,可用于语音输入、拼音输入及汉语分词中,匹配基本句型或词语。

作为基本方法的拓展,如果可用于标记的位数n,是字符串的平均长度m的2倍以 上,可以用数个位(bit)的组合对应一组字符元进行标记,以提高筛选效率。

位标记字符串检索技术作为一种字符串算法,需要首先对检索范围的字符串进行位 标记,所以适用于检索范围比较固定的字符串查找领域。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于徐文新,未经徐文新许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200510057491.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top