[发明专利]一种基于Lucene的桌面搜索系统及方法有效

专利信息
申请号: 201210280166.4 申请日: 2012-08-08
公开(公告)号: CN102819592B 公开(公告)日: 2012-12-12
发明(设计)人: 冯钧;胡小克;聂妮;付言章;唐志贤;卞一路;盛震宇;许潇;徐黎明;史涯晴 申请(专利权)人: 河海大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 柏尚春
地址: 210098 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种基于Lucene的桌面搜索系统及方法,所述系统在Lucene的基础上扩充了中文处理和文本分析功能,包括四个模块:索引文件构建模块、索引文件实时更新模块、索引文件定时更新模块和用户交互模块。方法包括以下步骤:扫描存储在本地磁盘上包含文本信息的文件,提取文件的名称、路径、内容等关键信息,建立倒排索引;监控对文件删除与修改等操作,更新索引,确保文件和索引信息一致;接收用户的查询请求,读取查询请求对应的索引,并进行相似度计算,将查询结果由高到低排列返回给用户,帮助用户快速而准确的定位所需信息。本发明实时性好、占用资源少,拥有较高的查全率和查准率。
搜索关键词: 一种 基于 lucene 桌面 搜索 系统 方法
【主权项】:
一种基于Lucene的桌面搜索方法,其特征在于,包括以下步骤:步骤1,若系统在计算机上第一次启动,则进入步骤2,否则进入步骤4;步骤2,扫描本地磁盘的所有文件,根据文件扩展名识别出各种包含文本信息的文件,再调用不同类型的文档解析器对相应的文档进行解析,提取文本和元数据,对得到的文本进行拆分,获得每个关键词对应的全文索引信息,采用倒排索引保存每个关键词的全文索引,每个关键词对应一个倒排索引链表,对于倒排索引链表采用压缩方法保存;步骤3,为文本文件建立倒排索引和索引文件列表,所述索引文件列表记录文本文件的路径和修改时间;进入步骤5;步骤4,查看系统停止运行时间,更新索引和索引文件列表,具体包括以下步骤:步骤4‑1,判断系统停止运行时间是否达到规定值:若停止运行时间已经达到规定值,进入步骤4‑2;若停止运行时间没有达到规定值,进入步骤4‑3;步骤4‑2,重新扫描存储在磁盘上包含文本信息的文件,获取文本文件后,与索引文件列表相比较,分析文件在系统停止运行期间发生的变化;步骤4‑3,实时监听系统文件变化,包括:文件创建、文件修改、文件删除和文件重命名;步骤4‑4,获取文件变化后,更新索引和索引文件列表中相应的信息,确保文件和索引信息一致;针对创建文件事件,周期性的合并索引,针对文件删除事件,将文件对应的索引信息标记为“删除”,在发生段合并操作时回收磁盘空间,步骤5,接收用户的查询请求,允许用户指定要查找的文件类型和文件修改时间的范围;步骤6,获得用户的查询请求后,将查询请求按照词典分词进行切分处理,读取经切分处理后的词对应的倒排索引信息,利用索引计算查询请求与文件的相似度,将查询结果由高到低排列返回给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210280166.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top