[发明专利]一种快速构建常用文件全文检索工具的方法在审
申请号: | 201410684418.9 | 申请日: | 2014-11-25 |
公开(公告)号: | CN104391941A | 公开(公告)日: | 2015-03-04 |
发明(设计)人: | 刘粉粉 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 构建 常用 文件 全文 检索 工具 方法 | ||
1.一种快速构建常用文件全文检索工具的系统,基于solr实现,其特征是包括文档解析模块,中文分词模块,全文索引建立模块,全文索引库,检索模块;
文档解析模块负责解析文件;
中文分词模块负责运用中文分词算法,将文件内容进行全文分词,以便建立全文索引;
全文索引建立模块负责对中文分词模块分词后的词语进行全文索引;
全文索引库负责数据存储;
检索模块负责实现用户的各种检索。
2.一种快速构建常用文件全文检索工具的方法,利用如权利要求1所述的一种快速构建常用文件全文检索工具的系统,其特征是具体步骤为
①文档解析模块读取所有的文件解析后转化为XML格式,将每个文件解析成两个属性,组成HTTP请求发送给中文分词模块;
②中文分词模块对接收到HTTP请求中的属性内容进行分词,所有属性分词后经过全文索引建立模块建立索引,分词算法可通过配置文件进行配置;
③全文索引建立模块定制索引服务类型,在配置文件中规划要存储的字段和要保存的字段,然后将所有建立的索引以及数据存储到全文索引库;
④检索模块对检索命令进行解析之后,从全文索引库中获取索引,进行相应的检索、删除、修改索引操作,完成检索工具的构建;
⑤用户提交查询词后,检索模块会对查询词进行分词等处理,并生成查询请求,然后在索引库中进行查询,并将查询所得结果呈现给用户。
3.根据权利要求2所述的一种快速构建常用文件全文检索工具的方法,其特征是所述的步骤①中每个文件解析成的两个属性分别是文件的文件名和文件的全文内容,其中文件名中包括文件存储的绝对路径。
4.根据权利要求2或3所述的一种快速构建常用文件全文检索工具的方法,其特征是所述的步骤②中全文索引建立模块建立倒排数据结构索引。
5.根据权利要求4所述的一种快速构建常用文件全文检索工具的方法,其特征是步骤④中检索模块对检索命令进行解析之后,还可实现检索结果的排序、关键词高亮显示、检索关键词加权重。
6.根据权利要求2或3或5任一项所述的一种快速构建常用文件全文检索工具的方法,其特征是所述的常用文件是word,pdf,txt格式的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410684418.9/1.html,转载请声明来源钻瓜专利网。