[发明专利]一种基于Lucene的桌面搜索系统及方法有效
申请号: | 201210280166.4 | 申请日: | 2012-08-08 |
公开(公告)号: | CN102819592B | 公开(公告)日: | 2012-12-12 |
发明(设计)人: | 冯钧;胡小克;聂妮;付言章;唐志贤;卞一路;盛震宇;许潇;徐黎明;史涯晴 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lucene 桌面 搜索 系统 方法 | ||
1.一种基于Lucene的桌面搜索方法,其特征在于,包括以下步骤:
步骤1,若系统在计算机上第一次启动,则进入步骤2,否则进入步骤4;
步骤2,扫描本地磁盘的所有文件,根据文件扩展名识别出各种包含文本信息的文件,再调用不同类型的文档解析器对相应的文档进行解析,提取文本和元数据,对得到的文本进行拆分,获得每个关键词对应的全文索引信息,采用倒排索引保存每个关键词的全文索引,每个关键词对应一个倒排索引链表,对于倒排索引链表采用压缩方法保存;
步骤3,为文本文件建立倒排索引和索引文件列表,所述索引文件列表记录文本文件的路径和修改时间;进入步骤5;
步骤4,查看系统停止运行时间,更新索引和索引文件列表,具体包括以下步骤:
步骤4-1,判断系统停止运行时间是否达到规定值:
若停止运行时间已经达到规定值,进入步骤4-2;
若停止运行时间没有达到规定值,进入步骤4-3;
步骤4-2,重新扫描存储在磁盘上包含文本信息的文件,获取文本文件后,与索引文件列表相比较,分析文件在系统停止运行期间发生的变化;
步骤4-3,实时监听系统文件变化,包括:文件创建、文件修改、文件删除和文件重命名;
步骤4-4,获取文件变化后,更新索引和索引文件列表中相应的信息,确保文件和索引信息一致;针对创建文件事件,周期性的合并索引,针对文件删除事件,将文件对应的索引信息标记为“删除”,在发生段合并操作时回收磁盘空间,
步骤5,接收用户的查询请求,允许用户指定要查找的文件类型和文件修改时间的范围;
步骤6,获得用户的查询请求后,将查询请求按照词典分词进行切分处理,读取经切分处理后的词对应的倒排索引信息,利用索引计算查询请求与文件的相似度,将查询结果由高到低排列返回给用户。
2.如权利要求1所述的基于Lucene的桌面搜索方法,其特征在于:所述步骤2分析包含文本信息的文件时,实现Lucene的解析文本的接口,通过配置文件,使用不同的解析器处理不同格式的文本以提取文本和元数据。
3.如权利要求1所述的基于Lucene的桌面搜索方法,其特征在于:所述步骤2分析包含文本信息的文件时,使用IKAnalyzer分词器处理中文,结合词典分词和文法分析算法拆分文本信息。
4.如权利要求1所述的基于Lucene的桌面搜索方法,其特征在于:所述步骤4-2获取文本文件后,与索引文件列表相比较,为不在索引文件列表中的文本文件创建索引,更新修改时间在索引文件列表中记录的时间之后的文本文件的索引信息,删除索引文件列表中存在但磁盘上不存在的文本文件的索引信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210280166.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:变坡胶带运输机
- 下一篇:一种人造革用离型涂料及利用该离型涂料制备的离型纸