[发明专利]面向带有描述信息的海量非结构化数据分布式处理系统有效
申请号: | 201310214367.9 | 申请日: | 2013-05-31 |
公开(公告)号: | CN104216899B | 公开(公告)日: | 2016-11-30 |
发明(设计)人: | 林立伟;崔星灿;董振 | 申请(专利权)人: | 济南观澜数据技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 王吉勇 |
地址: | 250101 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 带有 描述 信息 海量 结构 数据 分布式 处理 系统 | ||
技术领域
本发明涉及分布式系统架构,属于计算机应用软件开发领域,尤指一种面向带有描述信息的海量非结构化数据分布式处理架构。
背景技术
近些年,随着数据采集和传感技术的提升,人们可以收集越来越多的数据并从中提取有价值的信息以供分析决策使用。通常采集到的数据可以分为三类:一类是可以通过二维表结构来逻辑表达的结构化数据;第二类是存在一定结构,但结构本身变化较大的半结构化数据;最后一类是诸如电子文档、图片、视频等非结构化数据。将第三类数据与前面两类结合便成为带有描述信息的非结构化数据,这里的描述信息既可以指结构化的信息,也可以是半结构化信息。现实中这类数据很常见,如摄像机拍摄的图片经识别后按一定格式添加描述标签,带有某种特定内容描述的电子文档等。很多应用需要收集海量此类数据,然后基于描述信息对它们进行检索或完成一些更复杂的业务功能。这就不仅要涉及对这些数据进行自动或触发式的批量操作,有时还需要实时监测和挖掘近期数据中包含的最新信息。传统的集中式存储和处理架构面对如此海量的数据规模已经显得力不从心,而现有的分布式系统又不能简单拿来解决这一问题。
发明内容
本发明的目的就是为了解决上述问题,提供了一种面向带有描述信息的海量非结构化数据分布式处理架构,来同时满足对于这类特殊数据进行批量处理和实时处理的要求。
为了实现上述目的,本发明采用如下技术方案:
一种面向带有描述信息的海量非结构化数据分布式处理架构,包括以下模块:
数据采集模块,包含数个采集终端,负责收集非结构化数据并将它们发送至数据缓冲及预处理模块的数据分布式缓冲队列中;如果终端设备支持,可以在此完成基本的描述信息识别或标注工作;
数据缓冲及预处理模块,主要包含一级数据分布式缓冲队列,用来暂存数据采集模块发送的数据;
数据分离及归档存储模块,从前一个模块的分布式队列中获取数据,并根据实际应用选择的对非结构化数据和描述信息分离,然后将分离后的数据转发或存储至分布式数据存储模块;
流处理模块,该模块基于现有的S4或Storm分布式流处理平台实现,对最近接入的数据实时监测、比对、计算和处理,得到的结果实时推送给后继模块中的分布式业务处理器,同时该模块也接收分布式业务处理器发来的信息和命令以满足可控性要求;
分布式数据存储模块,为满足海量数据需求,该模块中用两种可靠的分布式存储组件即分布式数据库和分布式文件系统,对非结构化数据和描述信息分别存储;
分布式业务处理模块,该模块作为应用业务处理的核心模块,主要包括以下几个组件:
(1)分布式业务处理器,该组件由分布在多台节点上的Share-Nothing式业务处理器组成,主要负责接收前端请求,通过与流处理模块交互和利用分布式计算框架MapReduce,来完成相应业务并向目的组件发送结果;
(2)非结构化数据访问单元,它不仅支持对已归档数据的访问,还能自动到缓冲队列中获取未来及归档的数据,这个过程对使用者而言是完全透明的;
(3)分布式数据缓存,无论是对非结构化数据本身还是对其描述信息的访问可能都会存在一定的延迟,分布式数据缓存组件能够缓解这一问题;
分布式消息中间件,该模块使用现成的中间件系统来充当,其主要功能是接收前端请求以供分布式业务处理器选择执行,业务完成结果也是通过该中间件经网络送达前端应用。
数据缓冲及预处理模块中还需添加一个专门单元即数据修复及二次识别单元,用于对数据修复或二次识别,如果数据采集模块内部分终端没有对非结构化数据识别或标注则在此处处理,然后将处理后的数据存入二级数据分布式缓冲队列中。如果应用不需要此工作,则数据修复及二次识别单元和二级数据分布式缓冲队列可以省略。
数据分离及归档存储模块中,分离过程中需要添加描述信息到非结构化数据的关联,换言之需要支持根据某条特定的描述信息找到其对应的非结构化数据。通常来看,对于后继的流处理模块,出于效率考虑可能仅需要描述信息;而分布式数据存储模块中对于非结构化数据及其描述的存储应该是分离的,例如前者可以归档并存入HDFS或其他分布式文件系统,而后者可以存入HBase分布式数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南观澜数据技术有限公司,未经济南观澜数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310214367.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息搜索的方法和系统
- 下一篇:具尿液感测功能的环保尿布
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置