[发明专利]一种基于数据仓库的异构大数据整合方法和系统有效
申请号: | 201310723548.4 | 申请日: | 2013-12-24 |
公开(公告)号: | CN103678665A | 公开(公告)日: | 2014-03-26 |
发明(设计)人: | 徐晓冬;邹铁鹏;何昌桃;黄建鹏 | 申请(专利权)人: | 焦点科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 张苏沛 |
地址: | 210061 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于数据仓库的异构大数据整合方法和系统,建立结构化数据、半结构化数据及非结构化数据的关联关系,结合关系型数据库、分布式数据库以及内存数据库的各自的优势,整合各类数据,基于数据仓库做深层次数据分析,不断深化数据挖掘,实现高效、高质量的异构大数据分析处理。本发明对互联网应用中的结构化数据、半结构化数据、非结构化数据进行关联,通过Map/Reduce分布式处理和数据挖掘处理,把处理结果和相关数据以数据库结构的方式写入内存,形成简易内存数据库,便于高速计算和快速响应。 | ||
搜索关键词: | 一种 基于 数据仓库 异构大 数据 整合 方法 系统 | ||
【主权项】:
一种基于数据仓库的异构大数据整合方法,其特征在于:数据源分为两部分存储,一部分存储在关系型数据库中,另一部分存储在文件系统中;其中,存储在关系型数据库中的数据是各个业务系统产生的数据,包括结构化数据和非结构化数据;存储在文件系统中的数据是以网络日志文件为主的半结构化数据,以及各类图片文件和文档文件非结构化数据;各个业务系统中的数据,经过标准数据接口,通过ETL,加载到ODS,再从ODS通过ETL加载到数据仓库中;存储在文件系统中的各类图片文件和文档文件,首先加载到Hadoop分布式文件系统中,再利用Map/Reduce对这些文件进行处理,使之能够被Hive所使用;确定与网络日志、图片文件、文档文件有关联的业务数据后,将他们从数据仓库提取出来,这其中包含结构化数据和文本型的非结构化数据;使之与网络日志信息、图片文件、文档文件中的相应数据对应后,存储在HBase分布式数据库中;在HBase存有大量的各类异构数据,根据业务需要,利用Map/Reduce对HBase中存储的大量相关联数据进行分布式运算处理,从而完成对大量数据的预处理,实现异构数据间的初步整合;计算后的结果作为中间结果保存在HBase中;Hive把一部分关联数据以及计算得出的中间结果,通过ETL再加载到数据仓库中,从而分享给所有的数据集市使用;另一部分按照不 同数据集市的主题需要,通过ETL,加载到各个不同主题的数据集市中;这些异构数据进行处理后,以结构化的形式存储在各个数据集市和数据仓库中;在各个不同主题的数据集市中,依照各自的数据挖掘算法对数据集市中的数据进行挖掘计算,形成各自主题领域内的局部知识结果,然后数据集市将各自的局部知识结果回写到数据仓库中;数据仓库对各个业务主题的局部知识结果进行统一存储并整理,形成数据仓库中的知识层,得到全局知识结果;每个数据集市能够分享到整体业务的知识,并利用知识层的数据进一步挖掘更多的数据知识;这个过程不断循环进行,形成一个有效的知识信息闭环,提高了知识的重复利用以及数据挖掘的性能;在数据集市中,常用数据以类似数据库的结构写入内存,这些数据一直驻留内存,形成简易便捷的内存数据库,网站活动事务数据和内存数据库中的数据进行交互处理;通过内存数据库,用户通过在线分析实时监控网上访问情况,询盘数据实时信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310723548.4/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置