[发明专利]一种海量中文文件名快速模糊拼音查询方法有效
申请号: | 201110163943.2 | 申请日: | 2011-06-17 |
公开(公告)号: | CN102236706A | 公开(公告)日: | 2011-11-09 |
发明(设计)人: | 袁新宇;李莹 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州裕阳专利事务所(普通合伙) 33221 | 代理人: | 江助菊 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 中文 文件名 快速 模糊 拼音 查询 方法 | ||
技术领域
本发明涉及计算机系统应用技术领域,具体来讲涉及一种支持中文模糊拼音快速查询计算机中所有文件的方法。
背景技术
随着存储系统容量的不断增长,计算机系统中保存的文件也越来越多。现在的普通个人笔记本电脑都会有超过100G的存储,保存着超过百万计的文件。如何从这些海量文件中快速找到符合查询要求的文件成为一个越来越重要的问题。
海量信息查询通常采用全文检索的方法。但是全文检索对文件名不合适,对中文文件名就更不合适。全文检索的必要条件是有一个合适的分词系统,然后根据分词结果对原始文档进行倒排序索引。但是文件名因为历史习惯/程序兼容性等多方面原因,基本没有采用空格进行分词,所以对西文文件名也无法建立倒排序索引,至于中文则更不存在类似西文空格那样的天然的分词方案。
目前的快速文件名查询方法往往基于快速字符串匹配算法。比如GNU Grep是最知名的字符串精确匹配程序,其采用内循环展开的Boyer-Moore算法。AGrep程序则是一个知名的近似串匹配程序,其采用Wu-Manber算法。
现有的针对文件名的快速查询方法中所存在的不足有:
1、 针对海量文件名的查询速度不理想。即使针对个人用的普通电脑,利用Windows自带的文件名查询工具进行查询耗时也在1分钟以上。如果针对云计算的存储中心或者企业级的文件存储服务器,查询速度会更慢。
2、 文件名索引时太过简单。现有的文件名快速查询工具,比如linux下的locate以及windows下的locate32都建立文件名索引库。但是这些索引库只是简单的保存所有的文件名,没有对文件名进行任何预处理。
3、 对中文模糊拼音查询支持不好。现有的知名文件查询工具中还没有支持中文模糊拼音查询的,一些信息检索系统中虽然有模糊拼音匹配功能,但是基于的是距离向量的近似字符串匹配方法。针对模糊拼音匹配问题,近似字符串匹配方法在性能上和精确度上都不如基于factor的多模式字符串匹配方法。
发明内容
本发明的目的是针对上述技术问题,提出一种用于快速查询所有匹配文件的支持中文模糊拼音查询的方法。
为了解决上述技术问题,本发明的技术方案如下:
一种海量中文文件名快速模糊拼音查询方法,包括如下步骤:
1)判断查询字符串是否为中文拼音,如果为中文拼音则根据模糊拼音规则进行转换并扩展形成新的查询字符串,如果不是中文拼音则查询字符串不变;
2)将上述查询字符串执行Set Backward Oracle Matching算法构建模式串识别的神谕有限自动机;
3)遍历文件名数据库,对所述文件名数据库中存储的文件名进行预过滤;
所述预过滤包括如下步骤:
在所述文件名数据库中将文件名长度少于查询字符串长度的文件名进行第一次过滤;然后判断查询字符串中是否有“.”符号,如果不包含“.”符号,则在查询时只匹配文件名的前缀,如果包含“.”符号,则匹配时以“.”符号的位置为分割匹配文件名的后缀,将后缀不匹配的文件名进行第二次过滤;
4)在文件名数据库中对步骤3)预过滤后的文件名执行SBOM算法匹配,对所有符合条件的查询结果进行排序并返回查询结果。
作为可选方案,所述模糊拼音规则默认设置为“zh=z, ch=c, sh=s, ing=in, ang=an, eng=en”,并可根据用户自主设定。
作为可选方案,所述文件名数据库中至少存储有文件名、文件路径、文件大小、文件时间和预处理信息,所述预处理信息包括文件类型、文件名中是否包含中文以及中文汉字个数、最后一个”.”符号在文件名中的位置;所述文件名、所述文件路径、所述文件大小、所述文件时间和所述预处理信息是通过对文件系统扫描处理后得到的。
作为可选方案,所述步骤1)中根据模糊拼音规则进行转换并扩展的步骤包括:将所述中文拼音根据所述模糊拼音规则进行转换,然后将转换后的拼音与对应的汉字进行关联扩展。
作为可选方案,所述文件名数据库将根据所述文件系统中的文件信息变化实时更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110163943.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:布风板和干燥机
- 下一篇:一种用于焊丝生产的风刀式烘干装置