[发明专利]基于语义网的大规模离线数据分析框架在审
申请号: | 201610907501.7 | 申请日: | 2016-10-18 |
公开(公告)号: | CN106570081A | 公开(公告)日: | 2017-04-19 |
发明(设计)人: | 王坚;凌卫青;程进 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海正旦专利代理有限公司31200 | 代理人: | 张磊 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于语义网的大规模离线数据分析框架,包括数据采集层、本体层、数据存储层、语义层、数据分析层和应用层。数据源分为动态数据和静态数据,静态数据包括数据和数据库内在逻辑语义和结构类型,分析框架中将静态数据构建成本体模型,将静态数据抽取和建模,以语义服务的方式面向用户或上层的分析任务。本发明可有效的提升对多源异构离线数据的组织能力,其对上为统一的接口,应用用户或数据分析人员无需了解不同数据源的所有信息,仅通过语义接口对下层数据源进行访问,获取相关的数据信息。本发明只需要通过对更改内容的本体结构进行修正并应用工具自带的更新和推理服务,便能从全局对整个数据资源进行有效的更新。 | ||
搜索关键词: | 基于 语义 大规模 离线 数据 分析 框架 | ||
【主权项】:
基于语义网的大规模离线数据分析框架,其特征在于自下而上分为数据采集层、本体层、数据存储层、语义层、数据分析层和应用层;其中:源数据是平台外部数据,被用于平台分析和处理,以集中或分布式存储于其他数据库或其他平台内;包括传感器数据、文本数据、表单数据、网络数据、图像数据和其他数据,所述源数据分为动态数据和静态数据;动态数据为快速产生变化的数据,该类数据通常产生时间间隔较短,占用大量的数据存储空间;静态数据产生时间间隔相对较长,是针对不同类型和来源的基础数据,包括数据逻辑关系、数据物理信息和数据语义信息;数据采集层包括结构化数据抽取、半结构化数据抽取、非结构化数据抽取和人工数据资源划分与归类;将企业或所有潜在的源数据进行人工划分与归类用于构建本体库,结构化数据抽取、半结构化数据抽取、非结构化数据抽取主要是为了根据不同的数据类型,结合本体库对相应类型的数据进行统一的处理,为数据存储层提供数据抽取服务;数据采集层通过人工识别或编写识别函数对源数据中的数据逻辑关系、数据语音信息和数据物理信息三类静态数据进行识别,以电子文档或记录的形式存储,静态数据通常为结构化数据;同时对实体数据内容,即存储在数据库或其他平台内大量的动态数据进行人工识别,主要针对动态数据的结构、类型、大小及存储方式,动态数据包括了结构化、半结构化和非结构化类型,根据不同数据库和外部平台的结构基于本体层编写不同的接口API,进行结构化数据抽取、半结构化数据抽取和非结构化数据抽取,并存储于数据存储层中;本体层主要进行本体库的构建,主要包括本体模型的建立、映射文件的编写以及实现本体模型的更新,本体层一方面将本体实例化数据存入数据库中,另一方面为语义层的语义检索提供支撑;基于语义网的数据整合,首先对源数据进行标识,然后将数据映射为RDF三元组形式,最终生成本体库并支持SPARQL查询;本体层主要根据静态数据利用protégé软件构建本体模型生成本体库,D2R引擎包括映射引擎、本体模型和映射文件,通过本体模型由人工、半自动或全自动的方式生成映射文件,映射文件主要是源数据的物理信息和存储层存储单元的物理信息的映射关系,映射引擎内嵌在数据采集层的数据抽取模块内,本体更新服务接口独立存在与本体层,主要用于本体库的更新;数据存储层将采集到的动态数据和静态数据存储到分布式存储系统中,静态数据可以采用结构化的数据库如Hbase,动态数据存储在如Hive、HDFS等数据库中;对于大数据分析来说,一般分布式存储系统采用主/从架构,主节点为管理节点,负责记录数据存储位置等信息;从节点为数据节点,是数据真正的物理存储位置;语义层主要面向大数据查询进行设计,包括查询与推理任务的生成、查询代理、查询引擎、推理引擎等模块,语义层层主要接收来自用户的请求,并根据语义解析和推理功能将请求转化为查询任务,然后调用查询引擎进行大数据查询,最终将结果传给数据分析层便于后续的大数据计算;语义层将下层模块封装并以接口API的方式为上层服务,上层应用通过API首先访问语义层的查询任务生成器,将查询任务转换为本体的SPARQL语言,通过推理引擎和查询引擎,查询本体库并返回相应的静态数据内容和动态数据的物理信息;数据分析层根据不同的大数据分析需求提供分析算法,该层对上以服务接口的模式为用户的应用开发提供支持;对下利用并行计算接口从底层调用数据,该层主要通过任务调度模块来对分析任务进行调度,协调分析任务的进度,其中利用基础分析算法库和复杂数据分析算法库对不同的算法进行封装,增强整个系统的二次开发能力和扩展性;数据分析层由任务调度模块实现该层其他模块与上下层模块的信息交互;应用服务接口提供API将用户的分析任务转换为算法指令调用复杂数据分析算法库,复杂数据分析算法库包括了大量独立的数据分析算法,并利用基础分析算法库调用接口API实现对基础分析算法库的调用,并行计算接口API用于抽取数据层数据并在并行环境下进行计算;应用层则以Web,应用程序、或APP的模式为普通用户提供独立化的分析应用服务;利用数据分析层计算出的结果,以服务的形式为用户提供大数据分析服务,根据各用户不同的需求可以调用一个或多个分析模块完成分析任务,同时可以在数据分析层增加新的计算模块来满足新的需求;用户既可以进行服务请求,也可以根据自身实际需求开发新的服务,并基于本框架进行大数据分析。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610907501.7/,转载请声明来源钻瓜专利网。