[发明专利]一种Spark分析结果的传输方法及装置有效
申请号: | 202010399306.4 | 申请日: | 2020-05-12 |
公开(公告)号: | CN111597566B | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 海克洪;张成成 | 申请(专利权)人: | 湖北美和易思教育科技有限公司 |
主分类号: | G06F21/60 | 分类号: | G06F21/60;G06F9/54 |
代理公司: | 武汉红观专利代理事务所(普通合伙) 42247 | 代理人: | 李季 |
地址: | 430000 湖北省武汉市东湖新技术*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 spark 分析 结果 传输 方法 装置 | ||
本发明提出了一种Spark分析结果的传输方法及装置。包括:获取Dataset[A]类型的数据,将该Dataset[A]类型的数据转化为List[JsObject]类型的数据;创建JsObject数据,将该List[JsObject]类型的数据存入JsObject数据中,并对该JsObject数据进行加密,获取加密后的JsObject数据;通过HTTP POST请求将加密后的JsObject数据发送,并等待Spark数据更新,本发明通过HTTP请求实现了Spark批处理结果的传输,同时利用本地规则产生的加密字符串对待发送的内容进行加密,保证了Spark批处理结果的安全性和稳定性。
技术领域
本发明涉及大数据技术领域,尤其涉及一种Spark分析结果的传输方法及装置。
背景技术
随着大数据时代的发展,越来越多的企业在使用Spark进行批量或流数据的处理和分析,HDFS、关系型数据库和Kafka是三种常用的结果存储方式。HDFS适用于Spark批处理结果的存储,包括中间结果和最终结果,其中,最终结果往往是聚合统计而来,因此数据量很小。由于Spark批处理程序一般是定时重复执行的,为了获取最新的最终结果数据,用户不得不编写一个程序去定时读取HDFS上的结果目录。一方面,结果读取程序的编写、部署、运行和维护会增加一部分成本,另一方面,结果获取的实时性也会因程序的定时任务运行方式而受到一定程度影响。关系型数据库具有应用广泛和使用方便的特点,适用于少量Spark批处理最终结果的存储。要使用关系型数据库进行数据中转,用户必须先安装和运行数据库软件,然后建库、建表,最后编写和运行数据库连接程序。Kafka是一种高吞吐量、高可用、分布式的“发布/订阅”消息系统,主要适用于Spark流处理结果的存储,也适合Spark批处理最终结果的存储。要使用Kafka进行数据中转,用户必须先搭建和运行Kafka集群,然后创建和配置相关的Kafka主题,最后编写和运行Kafka生产者、消费者。
但是,对于大部分Spark批处理应用,都要定时重复执行,而最终结果的数据量又往往很小。并且常用的HDFS、关系型数据库和Kafka传输方案,在数据传输的过程中都无法保证数据的安全性和完整性,所以,亟需一种数据传输方法,能够提高Spark批处理应用中数据传输的安全性和完整性。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
有鉴于此,本发明提出了一种Spark分析结果的传输方法及装置,旨在解决现有技术无法提高Spark批处理应用中数据传输的安全性和完整性问题。
本发明的技术方案是这样实现的:
一方面,本发明提供了一种Spark分析结果的传输方法,所述Spark分析结果的传输方法包括以下步骤:
S1,获取Dataset[A]类型的数据,根据本地转换规则,将该Dataset[A]类型的数据转化为List[JsObject]类型的数据;
S2,创建JsObject数据,将该List[JsObject]类型的数据存入JsObject数据中,获取新JsObject数据,并根据本地预设规则设置特定字段对该新JsObject数据进行加密,获取加密后的JsObject数据;
S3,通过HTTP POST请求将加密后的JsObject数据发送,并等待Spark数据更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北美和易思教育科技有限公司,未经湖北美和易思教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010399306.4/2.html,转载请声明来源钻瓜专利网。