[发明专利]一种基于HDFS的文件检索系统有效
申请号: | 201610898403.1 | 申请日: | 2016-10-14 |
公开(公告)号: | CN106484877B | 公开(公告)日: | 2019-04-26 |
发明(设计)人: | 陈东明;胡阳;黄新宇 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/14 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李在川 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于HDFS的文件检索系统,包括系统配置模块、文件管理模块、索引管理模块、检索门户模块、MongoDB数据库、HDFS集群、Spark集群和ElasticSearch集群;文件管理模块将文件存入HDFS集群;索引管理模块通过Spark集群创建索引,并存入ElasticSerch集群;检索门户模块将检索条件发送给ElasticSearch集群进行索引匹配,得到检索结果,MongoDB数据库用于存储文件检索过程中产生的记录;本发明的HDFS集群、Spark集群和ElasticSearch集群均采用分布式,减轻查询负载,提高查询效率;采用主从架构具有水平扩展性和稳定性,便于提升集群整体的处理能力,系统工作状态稳定;采用副本冗余策略,能够保证索引的可靠性与完整性。 | ||
搜索关键词: | 一种 基于 hdfs 文件 检索系统 | ||
【主权项】:
1.一种基于HDFS的文件检索系统,其特征在于,包括:系统配置模块、文件管理模块、索引管理模块、检索门户模块、MongoDB数据库和后台存储计算集群;所述后台存储计算集群包括HDFS集群、Spark集群和ElasticSearch集群;所述系统配置模块,用于配置后台存储计算集群参数和索引配置表,并将索引配置表发送给MongoDB数据库;所述文件管理模块,用于接收文件,生成该文件的文件ID和文件信息,将文件信息发送给MongoDB数据库;接收MongoDB数据库发送的存储位置,将文件、文件ID和存储位置发送给HDFS集群,并生成包含文件ID、文件信息和存储位置的文件记录发送给MongoDB数据库;所述HDFS集群,用于接收文件管理模块发送的文件、文件ID和存储位置,并根据存储位置存储文件和文件ID;所述索引管理模块,用于将文件信息发送给MongoDB数据库,接收MongoDB数据库发送的匹配文件记录,提取文件ID,判断操作类型,如果是更新索引操作,将文件ID和删除索引消息发送到ElasticSerch集群,将文件ID发送给Spark集群,如果是索引创建操作,将文件ID发送给Spark集群进行索引创建;接收Spark集群发送索引创建成功消息,生成索引记录发送给MongoDB数据库;所述检索门户模块,用于将检索条件发送给ElasticSearch集群,接收ElasticSearch集群发送的检索结果,并生成检索日志发送给MongoDB数据库;所述Spark集群,用于接收文件ID,并创建索引,将创建好的索引发送到ElasticSerch集群,并向索引管理模块发送索引创建成功消息;所述ElasticSerch集群,用于接收Spark集群发送的索引并存储;接收索引管理模块发送的文件ID和删除索引消息,删除文件ID对应的索引;接收检索门户模块发送的检索条件并根据检索条件与索引匹配,根据匹配索引生成检索结果并发送给检索门户模块;所述MongoDB数据库,用于接收系统配置模块发送的索引配置表并存储;接收文件管理模块发送的文件信息,并根据索引配置表将文件信息对应的存储位置发送给文件管理模块;接收文件管理模块发送的文件记录并存储;接收索引管理模块发送的文件信息,并与文件记录进行匹配,将匹配文件记录发送给索引管理模块;接收索引管理模块发送的索引记录并存储;接收检索门户模块发送的检索日志并存储。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610898403.1/,转载请声明来源钻瓜专利网。