[发明专利]一种基于数据仓库的异构大数据整合方法和系统有效

专利信息
申请号: 201310723548.4 申请日: 2013-12-24
公开(公告)号: CN103678665A 公开(公告)日: 2014-03-26
发明(设计)人: 徐晓冬;邹铁鹏;何昌桃;黄建鹏 申请(专利权)人: 焦点科技股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京知识律师事务所 32207 代理人: 张苏沛
地址: 210061 江苏省南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出了一种基于数据仓库的异构大数据整合方法和系统,建立结构化数据、半结构化数据及非结构化数据的关联关系,结合关系型数据库、分布式数据库以及内存数据库的各自的优势,整合各类数据,基于数据仓库做深层次数据分析,不断深化数据挖掘,实现高效、高质量的异构大数据分析处理。本发明对互联网应用中的结构化数据、半结构化数据、非结构化数据进行关联,通过Map/Reduce分布式处理和数据挖掘处理,把处理结果和相关数据以数据库结构的方式写入内存,形成简易内存数据库,便于高速计算和快速响应。
搜索关键词: 一种 基于 数据仓库 异构大 数据 整合 方法 系统
【主权项】:
一种基于数据仓库的异构大数据整合方法,其特征在于:数据源分为两部分存储,一部分存储在关系型数据库中,另一部分存储在文件系统中;其中,存储在关系型数据库中的数据是各个业务系统产生的数据,包括结构化数据和非结构化数据;存储在文件系统中的数据是以网络日志文件为主的半结构化数据,以及各类图片文件和文档文件非结构化数据;各个业务系统中的数据,经过标准数据接口,通过ETL,加载到ODS,再从ODS通过ETL加载到数据仓库中;存储在文件系统中的各类图片文件和文档文件,首先加载到Hadoop分布式文件系统中,再利用Map/Reduce对这些文件进行处理,使之能够被Hive所使用;确定与网络日志、图片文件、文档文件有关联的业务数据后,将他们从数据仓库提取出来,这其中包含结构化数据和文本型的非结构化数据;使之与网络日志信息、图片文件、文档文件中的相应数据对应后,存储在HBase分布式数据库中;在HBase存有大量的各类异构数据,根据业务需要,利用Map/Reduce对HBase中存储的大量相关联数据进行分布式运算处理,从而完成对大量数据的预处理,实现异构数据间的初步整合;计算后的结果作为中间结果保存在HBase中;Hive把一部分关联数据以及计算得出的中间结果,通过ETL再加载到数据仓库中,从而分享给所有的数据集市使用;另一部分按照不 同数据集市的主题需要,通过ETL,加载到各个不同主题的数据集市中;这些异构数据进行处理后,以结构化的形式存储在各个数据集市和数据仓库中;在各个不同主题的数据集市中,依照各自的数据挖掘算法对数据集市中的数据进行挖掘计算,形成各自主题领域内的局部知识结果,然后数据集市将各自的局部知识结果回写到数据仓库中;数据仓库对各个业务主题的局部知识结果进行统一存储并整理,形成数据仓库中的知识层,得到全局知识结果;每个数据集市能够分享到整体业务的知识,并利用知识层的数据进一步挖掘更多的数据知识;这个过程不断循环进行,形成一个有效的知识信息闭环,提高了知识的重复利用以及数据挖掘的性能;在数据集市中,常用数据以类似数据库的结构写入内存,这些数据一直驻留内存,形成简易便捷的内存数据库,网站活动事务数据和内存数据库中的数据进行交互处理;通过内存数据库,用户通过在线分析实时监控网上访问情况,询盘数据实时信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310723548.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top