[发明专利]基于云计算的数据挖掘REST服务平台有效
申请号: | 201510297442.1 | 申请日: | 2015-06-02 |
公开(公告)号: | CN104954453B | 公开(公告)日: | 2019-01-22 |
发明(设计)人: | 陈铁明;张旭 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于云计算的数据挖掘REST服务平台,包括:云计算集群层,用于提供云存储及并行计算能力;算法引擎层,用于提供并行数据挖掘能力,提供各种并行算法库;数据挖掘服务引擎层,用于对外提供挖掘云服务,所有服务以Restful接口对外暴露;云挖掘服务SDK,用于提供一种本地调用挖掘云服务的方式,通过在其他业务系统中引入云挖掘服务SDK,在业务系统中使用数据挖掘、数据分析功能。本发明有效适用于海量数据处理、产品收益较高。 | ||
搜索关键词: | 基于 计算 数据 挖掘 rest 服务 平台 | ||
【主权项】:
1.一种基于云计算的数据挖掘REST服务平台,其特征在于:所述数据挖掘REST服务平台包括:云计算集群层,用于提供云存储及并行计算能力;算法引擎层,用于提供并行数据挖掘能力,提供各种并行算法库;数据挖掘服务引擎层,用于对外提供挖掘云服务,所有服务以Restful接口对外暴露;云挖掘服务SDK,用于提供一种本地调用挖掘云服务的方式,通过在其他业务系统中引入云挖掘服务SDK,在业务系统中使用数据挖掘、数据分析功能;所述云计算集群层中,采用分布式计算平台作为运行支撑,Hadoop以HDFS作为其分布式存储系统;所述算法引擎层中,调用算法库来提供算法服务功能,算法库实现基于Hadoop、Spark平台的并行关联规则分析、分类、聚类算法;所述数据挖掘服务引擎层中,提供的服务被封装成Restful接口;所述云挖掘服务SDK中,封装基于云的数据挖掘服务平台的REST服务API接口以供本地调用,在业务系统中引入SDK的开发包,调用SDK服务时实例化相关的Service对象;所述数据挖掘服务引擎层中,基于REST提供的服务接口包括并行挖掘算法服务,作业运行监控服务和日志管理服务,并行挖掘算法服务:向外暴露并行挖掘算法接口,算法服务资源的URI为/algorithms/{algorithmID},algorithmID为对应算法的资源ID,在调用算法服务前,通过查询算法资源下的info子资源获取该算法的调用参数信息;作业运行监控服务:向外暴露作业运行状态的查询接口,客户端根据作业名查询指定作业的执行情况;日志管理服务:提供对集群作业的运行日志的管理,服务资源的URI为/logs/{logID},logID为作业日志的ID;所述并行挖掘算法服务中,同步模式下的服务请求处理,客户端的请求连接在单线程的服务端得到处理;调用异步模式的并行挖掘算法服务资源的URI为/algorithms/{algorithmID}/run,当调用算法服务时通过Post请求向算法服务资源传递参数,参数值被封装在基于哈希表实现的MapObject对象中,基于Jersey实现的服务端每接受到一个算法调用请求会创建一个新线程负责执行相应的算法调用处理,同时会创建一个异步的Response对象交给新创建的线程对象,当执行算法处理的线程运行完后会通过异步的Response对象向客户端返回处理结果,处理结果以JSON格式返回给客户端;所述作业运行监控服务中,该服务资源的URI为/jobs/{jobName},jobName为要查询运行状态的作业名,通过该服务资源查询到的作业的运行状态为总体的运行情况,由于作业有多个运行阶段,若想详细查询每个阶段的执行状态,可通过该服务资源下的status子资源获取,查询结果也以JSON返回给客户端;所述日志管理服务中,允许根据作业名来查询作业的运行日志,同时进行日志删除操作,Hadoop中MapReduce作业的服务日志有两大类,一类是运行节点的日志,包括JobTracker日志和各个TaskTracker日志,这些日志文件每天生成一个,旧的日志后缀是日期,当天的日志文件后缀是“.log”,另一类是作业运行日志,包括jobhistory日志和task日志两部分,其中,jobhistory日志是作业运行日志,包括作业启动时间、结束时间,每个任务的启动时间、结束时间和各种counter信息,从这个日志中可以解析出作业运行的各种信息,每个task日志存放在task运行节点上,包含三个日志文件,分别是stdout、stderr和syslog;通过该服务进行日志管理时,会直接从集群节点上的logs目录读取日志信息然后反序列化为JobHistory对象,JobHistory提供读写日志的方法,实现作业运行日志的查看和删除操作。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510297442.1/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置