[发明专利]集成分布式数据处理系统的方法、相应系统及其数据处理方法在审
申请号: | 201510812126.3 | 申请日: | 2015-11-20 |
公开(公告)号: | CN105468720A | 公开(公告)日: | 2016-04-06 |
发明(设计)人: | 毛颖 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 胡彬;孟金喆 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集成 分布式 数据处理系统 方法 相应 系统 及其 数据处理 | ||
1.一种集成分布式数据处理系统的方法,其特征在于,包括:
搭建分布式系统基础架构Hadoop集群;
在所述Hadoop集群上建立分布式数据库Hbase、全文搜索服务器Solr以及分布式实时计算系统Storm,获得分布式数据处理系统的总架构;
在所述总架构的数据访问层上,设置第一配置文件和第二配置文件,以提供统一的数据访问接口,集成分布式数据处理系统。
2.根据权利要求1所述的方法,其特征在于,所述搭建分布式系统基础架构Hadoop,具体包括:
在操作系统Linux上搭建版本为Hadoop2.0的分布式系统基础架构。
3.根据权利要求1或2所述的方法,其特征在于,所述在所述Hadoop集群上建立分布式数据库Hbase、全文搜索服务器Solr以及分布式实时计算系统Storm,具体包括:
基于Hadoop2.0集群安装分布式应用程序协调服务Zookeeper;
在安装所述Zookeeper的Hadoop2.0集群上,配置安装分布式数据库Hbase、全文搜索服务器Solr以及分布式实时计算系统Storm,其中所述Hbase、Solr以及Storm共用所述Zookeeper。
4.根据权利要求3所述的方法,其特征在于,所述在所述总架构的数据访问层上,设置第一配置文件和第二配置文件,具体包括:
在分布式数据处理系统总架构的数据访问层上,设置元数据配置文件和入库策略配置文件,将Hbase中的数据存储与Solr中的数据索引进行关联;
在分布式数据处理系统总架构的数据访问层上,设置数据提取策略配置文件,使得Storm能够实时读取Hbase和/或Solr中的数据以进行计算处理,并将处理后的数据实时写入Hbase和/或Solr的相应位置,其中,所述数据提取策略配置文件包括:数据的提取目标、提取条件、提取周期、以及提取批次。
5.根据权利要求4所述的方法,其特征在于,所述元数据配置文件,包括:
数据集文件、元素集文件以及代码集文件;
所述数据集文件用于描述源数据的结构类型;所述元素集文件用于描述源数据的字段属性;所述代码集文件用于描述源数据的字典数据;
所述入库策略配置文件,包括:
存储策略、索引策略;
所述存储策略用于描述需要存储的数据集以及所述数据集的存储位置、存储周期和存储特性;
所述索引策略用于描述索引库的结构、索引库对应的Solr服务器或分区、需要索引的数据以及所述数据集的存储周期。
6.一种应用权利1-5任一项所述方法集成的分布式处理系统,其特征在于,包括:
Hadoop集群、配置于所述集群中的分布式数据库Hbase、全文搜索服务器Solr和分布式实时计算系统Storm、以及配置于所述集群的数据访问层上的统一数据访问接口;
其中,所述分布式数据库Hbase、全文搜索服务器Solr以及分布式实时计算系统Storm通过配置于所述集群的数据访问层上的第一配置文件和第二配置文件进行数据处理。
7.一种基于权利要求6所述的分布式数据处理系统的数据处理方法,其特征在于,包括:
通过数据访问接口,获取业务数据访问请求;
根据所述业务数据访问请求,统一调度系统中的分布式数据库Hbase、全文搜索服务器Solr以及分布式实时计算系统Storm,完成对所述访问请求的响应。
8.根据权利要求7所述的方法,其特征在于,所述业务数据访问请求为入库请求;
相应的,统一调度系统中的分布式数据库Hbase、全文搜索服务器Solr以及分布式实时计算系统Storm,完成对所述访问请求的响应,具体包括:
提取与所述入库请求对应的入库数据和索引数据;
将所述入库数据存储于所述分布式数据库Hbase中;
将所述索引数据存储于所述全文搜索服务器Solr中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510812126.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于本地计算和分布式计算的数据计算方法及系统
- 下一篇:一种原因追溯方法