[发明专利]一种基于Lucene的桌面搜索系统及方法有效
申请号: | 201210280166.4 | 申请日: | 2012-08-08 |
公开(公告)号: | CN102819592B | 公开(公告)日: | 2012-12-12 |
发明(设计)人: | 冯钧;胡小克;聂妮;付言章;唐志贤;卞一路;盛震宇;许潇;徐黎明;史涯晴 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于Lucene的桌面搜索系统及方法,所述系统在Lucene的基础上扩充了中文处理和文本分析功能,包括四个模块:索引文件构建模块、索引文件实时更新模块、索引文件定时更新模块和用户交互模块。方法包括以下步骤:扫描存储在本地磁盘上包含文本信息的文件,提取文件的名称、路径、内容等关键信息,建立倒排索引;监控对文件删除与修改等操作,更新索引,确保文件和索引信息一致;接收用户的查询请求,读取查询请求对应的索引,并进行相似度计算,将查询结果由高到低排列返回给用户,帮助用户快速而准确的定位所需信息。本发明实时性好、占用资源少,拥有较高的查全率和查准率。 | ||
搜索关键词: | 一种 基于 lucene 桌面 搜索 系统 方法 | ||
【主权项】:
一种基于Lucene的桌面搜索方法,其特征在于,包括以下步骤:步骤1,若系统在计算机上第一次启动,则进入步骤2,否则进入步骤4;步骤2,扫描本地磁盘的所有文件,根据文件扩展名识别出各种包含文本信息的文件,再调用不同类型的文档解析器对相应的文档进行解析,提取文本和元数据,对得到的文本进行拆分,获得每个关键词对应的全文索引信息,采用倒排索引保存每个关键词的全文索引,每个关键词对应一个倒排索引链表,对于倒排索引链表采用压缩方法保存;步骤3,为文本文件建立倒排索引和索引文件列表,所述索引文件列表记录文本文件的路径和修改时间;进入步骤5;步骤4,查看系统停止运行时间,更新索引和索引文件列表,具体包括以下步骤:步骤4‑1,判断系统停止运行时间是否达到规定值:若停止运行时间已经达到规定值,进入步骤4‑2;若停止运行时间没有达到规定值,进入步骤4‑3;步骤4‑2,重新扫描存储在磁盘上包含文本信息的文件,获取文本文件后,与索引文件列表相比较,分析文件在系统停止运行期间发生的变化;步骤4‑3,实时监听系统文件变化,包括:文件创建、文件修改、文件删除和文件重命名;步骤4‑4,获取文件变化后,更新索引和索引文件列表中相应的信息,确保文件和索引信息一致;针对创建文件事件,周期性的合并索引,针对文件删除事件,将文件对应的索引信息标记为“删除”,在发生段合并操作时回收磁盘空间,步骤5,接收用户的查询请求,允许用户指定要查找的文件类型和文件修改时间的范围;步骤6,获得用户的查询请求后,将查询请求按照词典分词进行切分处理,读取经切分处理后的词对应的倒排索引信息,利用索引计算查询请求与文件的相似度,将查询结果由高到低排列返回给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210280166.4/,转载请声明来源钻瓜专利网。
- 上一篇:变坡胶带运输机
- 下一篇:一种人造革用离型涂料及利用该离型涂料制备的离型纸