[发明专利]一种快速构建常用文件全文检索工具的方法在审
申请号: | 201410684418.9 | 申请日: | 2014-11-25 |
公开(公告)号: | CN104391941A | 公开(公告)日: | 2015-03-04 |
发明(设计)人: | 刘粉粉 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 构建 常用 文件 全文 检索 工具 方法 | ||
技术领域
本发明公开一种快速构建检索工具的方法,属于检索工具领域,具体地说是一种快速构建常用文件全文检索工具的方法。
背景技术
全文检索是将存储的整本书、整篇文章中的任意内容信息查找出来的检索。它可以根据需要获得全文中有关章、节、段、句、词等信息,也就是说类似于给整本书的每个字词添加一个标签,也可以进行各种统计和分析。Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。
现在很多的用户的搜索需求还停留在数据库阶段,但是在搜索任务负载量很大的情况下,数据库的性能也有局限性。而且对于大量的文件的内容的搜索,数据库是几乎不可完成,或者完成过程相当的困难,而选择一个成熟的开源搜索引擎作为核心,以此构建一个可为用户使用的检索工具,是不错的选择,但一个实用的全文搜索工具构建十分复杂,而且基本上没有统一且简单的构建方法,本发明提供一种快速构建常用文件全文检索工具的方法,基于开源搜索引擎solr的常用文件检索工具,将文件存入搜索引擎中,对其进行构建全文索引,能根据搜索关键词快速的检索所有相关内容,最后呈现给用户。利用此方法,可以实现个人和企业构建专属的搜索引擎,只需花费较少的时间和精力,即可达到自身的检索需求,轻松管理大量的内部文件。
发明内容
本发明针对现有技术存在的不足和问题,提供一种快速构建常用文件全文检索工具的方法,适用于个人快速建立一个可检索日积月累的繁多文件的检索工具,更适用于企业来管理内部大量文件,可快速检索所需文件。
本发明一种快速构建常用文件全文检索工具的方法,提出的具体方案是:
一种快速构建常用文件全文检索工具的系统,基于solr实现,包括文档解析模块,中文分词模块,全文索引建立模块,全文索引库,检索模块;
文档解析模块负责解析文件;
中文分词模块负责运用中文分词算法,将文件内容进行全文分词,以便建立全文索引;
全文索引建立模块负责对中文分词模块分词后的词语进行全文索引;
全文索引库负责数据存储;
检索模块负责实现用户的各种检索。
一种快速构建常用文件全文检索工具的方法,基于solr实现,具体步骤为
①文档解析模块读取所有的文件解析后转化为XML格式,将每个文件解析成两个属性,组成HTTP请求发送给中文分词模块;
②中文分词模块对接收到HTTP请求中的属性内容进行分词,所有属性分词后经过全文索引建立模块建立索引,分词算法可通过配置文件进行配置;
③全文索引建立模块定制索引服务类型,在配置文件中规划要存储的字段和要保存的字段,然后将所有建立的索引以及数据存储到全文索引库;
④检索模块对检索命令进行解析之后,从全文索引库中获取索引,进行相应的检索、删除、修改索引操作,完成检索工具的构建;
⑤用户提交查询词后,检索模块会对查询词进行分词等处理,并生成查询请求,然后在索引库中进行查询,并将查询所得结果呈现给用户。
所述的步骤①中每个文件解析成的两个属性分别是文件的文件名和文件的全文内容,其中文件名中包括文件存储的绝对路径。
所述的步骤②中全文索引建立模块建立倒排数据结构索引。
步骤④中检索模块对检索命令进行解析之后,还可实现检索结果的排序、关键词高亮显示、检索关键词加权重。
所述的常用文件是word,pdf,txt格式的。
本发明的有益之处是:本发明基于开源搜索引擎solr的常用文件检索工具,将文件存入搜索引擎中,对其进行构建全文索引,能根据搜索关键词快速的检索所有相关内容,最后呈现给用户,利用本方法,可以实现个人和企业构建专属的搜索引擎,只需花费较少的时间和精力,即可达到自身的检索需求,轻松管理大量的内部文件。
附图说明:
图1一种快速构建常用文件全文检索工具的方法流程示意图。
具体实施方式
结合附图对本发明对进一步阐述:
实施例1
基于搜索引擎solr,构建一种快速构建常用文件全文检索工具的系统,包括文档解析模块,中文分词模块,全文索引建立模块,全文索引库,检索模块;中文分词模块,全文索引建立模块,全文索引库,检索模块基于搜索引擎solr工作;
文档解析模块负责解析文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410684418.9/2.html,转载请声明来源钻瓜专利网。