[发明专利]一种实时大数据搜索引擎系统在审
申请号: | 201711362882.6 | 申请日: | 2017-12-18 |
公开(公告)号: | CN108228743A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 张云翔;饶竹一 | 申请(专利权)人: | 深圳供电局有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳汇智容达专利商标事务所(普通合伙) 44238 | 代理人: | 熊贤卿;潘中毅 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大数据 文档 索引 搜索引擎系统 分析处理结果 信息资源库 查询结果 查询信息 全文搜索 外界用户 采集器 实时流 搜索器 索引库 索引器 构建 内核 检索 集合 架构 采集 储存 返回 创建 | ||
1.一种实时大数据搜索引擎系统,其特征在于,包括:
采集器,采集来自于所述实时大数据搜索引擎系统外部的各种格式的文档和数据;
索引器,对所述采集器所采集到的各种格式的文档以及数据库数据进行信息抽取,并根据文档类型选择相对应的文本分析器进行文本分析,创建各文档对应的索引;
索引库,收集并储存所述索引器产生的索引;
信息资源库,集合带有索引的各文档,并与所述索引库中的对应索引建立关联;
搜索器,接收外界用户端输入的查询信息,并生成并传递搜索请求同时将搜索结果进行排序后反馈给所述外界用户端;
大数据内核,接收所述搜索器传递的所述搜索请求,在所述索引库内进行对应的索引检索并在所述信息资源库内提取对应的文件,同时反馈检索的结果和检索到的文件给到所述搜索器。
2.根据权利要求1所述的实时大数据搜索引擎系统,其特征在于,所述实时大数据搜索引擎系统由至少一台服务器实施。
3.根据权利要求1或2所述的实时大数据搜索引擎系统,其特征在于,所述索引器具体用于遵循阿帕奇Web服务器中的开放源代码全文检索引擎工具包创建所述各文档对应的索引。
4.根据权利要求1或2所述的实时大数据搜索引擎系统,其特征在于,所述搜索请求具体用于遵循阿帕奇Web服务器中的开放源代码全文检索引擎工具包定义的格式,并最终以超文本传输协议的方式进行传输。
5.根据权利要求1所述的实时大数据搜索引擎系统,其特征在于,所述索引器在创建每个所述索引时,将该索引与所对应的文档的ID值进行映射操作;
在查找索引时,所述实时大数据搜索引擎根据用户的输入信息检索所述索引库内的对应索引并映射出与该索引对应的所述文档的ID值即可返回查找结果及文档。
6.根据权利要求4所述的实时大数据搜索引擎系统,其特征在于, 所述搜索请求包括关键词搜索、全文搜索以及关联搜索中至少一种。
7.根据权利要求6所述的实时大数据搜索引擎系统,其特征在于,所述增加、修改的请求被所述实时大数据搜索引擎接收后且经用户进行确认提交后,在所述搜索器内才能搜索到所述索引及相关文件。
8.根据权利要求6所述的实时大数据搜索引擎系统,其特征在于,当所述删除请求包括ID值时,所述ID值指示删除包括对应ID值的文档,当所述删除请求包括查询索引时,所述查询索引指示删除根据所述查询索引搜到的所有对应文档。
9.根据权利要求1所述的实时大数据搜索引擎系统,其特征在于,所述采集器所采集到的各种格式的文档均以可扩展标记语言(XML)形式存储。
10.根据权利要求1所述的实时大数据搜索引擎系统,其特征在于,具有可扩展的插件系统,通过各类插件完成更快速的数据处理和分析,所述可扩展的插件包括IKAnalyzer、Mmseg4j、Paoding分词器以及Solr_Pager分页工具。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳供电局有限公司,未经深圳供电局有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711362882.6/1.html,转载请声明来源钻瓜专利网。