[发明专利]位标记字符串检索技术有效
申请号: | 200510057491.4 | 申请日: | 2005-09-13 |
公开(公告)号: | CN101488127A | 公开(公告)日: | 2009-07-22 |
发明(设计)人: | 徐文新 | 申请(专利权)人: | 徐文新 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200433上海市杨浦区邯郸路*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标记 字符串 检索 技术 | ||
技术领域
本发明涉及一种字符串模糊检索方法,快速有效地确定目的字符串可能存在的范 围,再使用已有的字符匹配方法定位目的字符串,适用于检索范围比较固定的字符串检索 领域。
背景技术
通常的字符串模糊检索采用逐位比较方式进行,如判断字符串S=“bdopfqew”中是否 包含字符f,计算机以主串S的第一个字符b与f进行比较,再以S的第二个字符d与f 进行比较,以此类推,直到S的第5个字符与f相同,匹配成功,这是最简单的情形。如 果子串T长度为2个字符以上,简单的模式匹配算法,即BF算法,是以S1与T1比较, 若不同则以S2与T1比较,依次类推,直到S的某一个字符Si与T1相同,再将它们之后的 Si+1与T1+1进行比较,若也相同,则继续往下比较,当S的某一个字符Si+n与T1+n不同时, 则返回,再以Si+1与T1作新一轮比较,重复以上过程,直到T中的字符全部比完,则匹 配成功,否则匹配失败。随着检索关键词T的长度增加,字符匹配的复杂程度相应增加。 改进后的模式匹配算法,即KMP算法,对小字符集的拼音文字来说,避免了回溯,但对 字符集大、单字符频度低的汉字字符串而言,实质意义不大。简而言之,BF算法与KMP 算法均是对主串和子串的字符进行逐位比较。
2004年本人提出“质数代换字符串检索技术”,该方法可以提高字符串模糊检索的 速度2-3倍,但对于长字符串实施该方法,需要较多的空间存贮质数乘积值。为了提高字 符串模糊检索的速度,并减少对存贮空间的需求,本发明提出用数据的n个位(bit)来标 记字符串的组成信息,标记后之后的数据称该字符串的“位值”,对两个字符串的位值进 行比较,并结合通常的字符逐位比较法,实现字符串的模糊检索。测试表明,速度是一般 的字符逐位比较模糊检索的数倍乃至十几倍以上。
发明内容
本发明是一种字符串检索技术,目的是提高字符串模糊检索的速度。以一个位(bit) 对应若干个字符元,以n个位对应全部字符元,也就是分全部字符元为n组,并用一个数 据的n个均为0的位,记为WF,来标记组成字符串的字符元信息。如果若干个字符串S 的一个字符元P1属于第n组,则相应地将W的第n个位标记为1,类似地,根据S其它 字符元P2、P3、P4…所属的组对W进行标记,完成全部字符元标记后的W,记录有S 的信息,称为S的“位值”,这种方式称为1标记。根据逻辑代数的原理,也可用一个数 据的n个均为1的位,记为来标记组成字符串的字符元信息。如果S的一个字符元 P属于第n组,则相应地将数据的第n个位标记为0,这种方式称为0标记。通过对Sa的“位值”Wa、与Sb的“位值”Wb、进行比较,可以判断Sb“不包含”、“包含” 或“可能包含”Sb的所有字符元。例如,对Wa与Wb进行位蕴含运算,如果所有的位都 有蕴含关系,则Sb包含或可能包含Sa的“所有字符元”。如果需要,再用通常的字符逐位 比较方法判断Sb是否包含“Sa”。以下简称本发明方法为“位标记检索”、“位标记字符串 检索”“位标记字符串检索技术”。
测试表明,位标记检索可以显著提高字符串的模糊检索速度。速度优势之外,位标 记检索的另一特点是多个关键词查询同单个关键词查询一样方便。位标记既可用于通常意 义的检索,即判断数据库字符串是否包含关键词,也可以作“逆检索”,判断关键词是否 包含数据库字符串,可用于语音输入、拼音输入及汉语分词中,匹配基本句型或词语。
作为基本方法的拓展,如果可用于标记的位数n,是字符串的平均长度m的2倍以 上,可以用数个位(bit)的组合对应一组字符元进行标记,以提高筛选效率。
位标记字符串检索技术作为一种字符串算法,需要首先对检索范围的字符串进行位 标记,所以适用于检索范围比较固定的字符串查找领域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于徐文新,未经徐文新许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200510057491.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:音圈式对焦马达
- 下一篇:便携电话装置以及用于其的呼叫接收历史生成方法