[发明专利]一种面向行业大数据多样性应用的混合型处理系统及处理方法在审
申请号: | 201410265820.3 | 申请日: | 2014-06-13 |
公开(公告)号: | CN104021194A | 公开(公告)日: | 2014-09-03 |
发明(设计)人: | 亓开元;张东;刘正伟;辛国茂 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王丹;栗若木 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 行业 数据 多样性 应用 混合 处理 系统 方法 | ||
技术领域
本发明涉及大数据领域,具体而言,尤其涉及一种面向行业大数据多样性应用的混合型处理系统及处理方法。
背景技术
在信息化建设的大力推动下,政府、金融、能源等行业已初步实现了企业级数据源的整合、共享与利用。然而,随着传感技术、网络技术以及整个社会数字化、网络化的迅猛发展,人类社会已进入大数据时代,终端数量的急剧增长,采集频度的大幅增强,数据量由TB级向PB级发展,数据的多样性与丰富性、时变性与激增性日益凸显,使得传统行业数据的管理及利用面临着多源异构海量数据的有效集成、高性能存储和高可扩展性挑战。同时,各行业的应用业务逐步向全面化、智能化、精益化方向发展,需要进一步提升跨业务、跨平台的数据分析和处理能力,对数据存储和处理的高效性、价值挖掘的准确性和实时性以及人机交互效果提出了更高要求。为了更好地服务于行业用户以及国民经济的可持续发展,如何应对行业大数据的存储、处理、挖掘以及高效的服务响应,成为亟待解决的关键问题。
针对行业大数据业务应用需求,面向数据密集型应用的计算框架和系统不断出现,如离线批处理系统MapReduce,海量数据高并发处理系统HBase,内存处理和迭代式计算框架Spark和流式处理框架Storm,以及传统的高性能计算框架MPI等,这些系统仅针对各自的问题域提供解决方案。为了应对行业日益复杂的业务需求,需要在大规模集群或数据中心中综合运用多种处理架构来存储和处理海量数据。然而,当前的各种大数据系统是逻辑独立的,缺乏统一的集中管理,若各自采用单独集群部署,则存在不可忽略的数据冗余和资源利用率低下问题;若考虑到资源利用率,运维成本和数据共享等因素,将所有框架和系统集中部署到单一集群中,则又面临着相互之间资源共享、竞争和性能干扰等问题。
发明内容
本发明所要解决的技术问题在于,本发明提出一种面向行业大数据多样性应用的混合型处理系统和处理方法,采用分布式大数据采集方式,实现对多源异构行业数据的高速导入,通过融合各种分布式处理技术架构的特点,并采用基于分布式内存计算的大数据处理性能优化技术,满足对各行业大数据应用的多样性业务需求和高速响应性能指标,并通过一体化的管理平台保障系统的可扩展性和可靠性。
为了解决上述问题,本发明提供一种面向行业大数据多样性应用的混合型处理系统,该系统包括:
分布式数据采集子系统、基于内存计算架构的混合型分布式存储和并行计算子系统、一体化资源和系统管理平台;其中,
所述分布式数据采集子系统,用于从外部系统采集数据;
所述基于内存计算架构的混合型分布式存储和并行计算子系统,用于对所采集的数据进行存储和计算;
所述一体化资源和系统管理平台,用于对所存储和计算的数据进行管理;
所述基于内存计算架构的混合型分布式存储和并行计算子系统,包括大数据存储子系统和大数据处理子系统;其中,
所述大数据处理子系统,包括内存计算引擎,其中,
所述内存计算引擎,用于在无共享集群中提供分布式内存抽象,并对采集的所述数据进行并行流水化和线程轻量级处理。
优选地,所述系统还具有以下特点:
所述大数据存储子系统包括分布式文件子系统、数据库;
所述分布式文件子系统,用于直接存储数据,并存储所述数据库;
所述数据库包括结构化关系数据库、NoSQL数据库和内存数据库;
所述结构化关系数据库,用于存储结构化数据;
所述NoSQL数据库,用于存储半结构化或非结构化数据;
所述内存数据库,用于存储经常使用或需要加速处理的数据。
优选地,所述系统还具有以下特点:
所述分布式数据采集子系统,还用于对所采集的数据进行第一预处理;
所述第一预处理是指,将所采集的数据分为结构化数据、半结构化或非结构化数据,并将所述结构化数据发送给所述结构化关系数据库,将所述半结构化或非结构化数据发送给所述NoSQL数据库;
还用于进行第二预处理;
所述第二次预处理是指,将所采集的数据中经常使用或需要加速处理的数据发送给所述内存数据库。
优选地,所述系统还具有以下特点:
所述大数据存储子系统还包括:
同步子系统,用于将所述内存数据库中经常使用或需要加速处理的数据中变化的数据同步到结构化关系数据库或NoSQL数据库;
所述同步方式为:实时同步、日志同步、定期同步。
所述同步子系统还用于根据所述变化的数据的可靠性级别选择不同的同步方式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410265820.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置