[发明专利]分布式数据处理方法及装置、电子设备、存储介质有效
申请号: | 201810492658.7 | 申请日: | 2018-05-22 |
公开(公告)号: | CN108664331B | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 刘宸宁 | 申请(专利权)人: | 腾讯大地通途(北京)科技有限公司;腾讯科技(深圳)有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;贾允 |
地址: | 100086 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 数据处理 方法 装置 电子设备 存储 介质 | ||
本发明揭示了一种分布式数据处理方法及装置、电子设备、计算机可读存储介质。该方案包括:响应接收到的数据处理指令,读取配置文件;根据配置文件所指示的数据存放目录,读取数据存放目录对应的待处理数据;按照配置文件所指示的计算节点数量,对待处理数据进行划分,获得相应数量的数据块;向每个计算节点上传数据块以及根据配置文件读取的数据分析程序,触发计算节点利用数据分析程序对数据块进行分析处理。该方案无需修改现有的数据分析程序,无需进行数据分析程序的语言转换,在配置文件的控制下,即可在几十甚至上百万台计算节点并行执行数据分析任务,大大缩短了从算法研究到数据处理的周期,降低了设计人员的学习成本和开发成本。
技术领域
本发明涉及计算机技术领域,特别涉及一种分布式数据处理方法及装置、电子设备、计算机可读存储介质。
背景技术
随着互联网的发展,图像数据成井喷式爆发,通常分析图像的做法是研究人员获取一小部分图像数据,然后编写独立算法分析图像,之后再将写好的算法用于分析海量的数据。但是从一个本地运行的独立程序,到处理海量的数据有一个巨大的挑战——怎么快速并行运行已有的程序。针对此类问题各个组织也提出了一些方案。
通常的方案是开发人员编写master-slave(主从式)分布式程序,开发量巨大,且需要分布式编程、网络通信等相关知识储备。另外一种模式是使用已有的框架(比如Hadoop分布式系统基础架构),Hadoop的MapReduce(分布式计算框架)和HDFS(分布式文件系统)均采用Java进行实现,默认提供Java编程接口,用户通过这些编程接口,可以定义map、reduce函数等等。由于Hadoop是用java语言进行开发的,为了处理海量的图片,开发人员要先学习java语言,然后学习Hadoop的开发模式以及mapreduce对应的接口调用,最后才能实际运行图像分析的程序。而图像分析程序由于通常要求性能较高,大多数程序都是使用c++语言写成,java调用c\c++又需要相关的跨语言调用的知识储备,所以在真正的运行图像分析程序之前,学习成本太大。http://hipi.cs.virginia.edu提出的Hadoop的hipi模块虽然可以处理图像数据,但是只有java的接口,将c++算法全部翻译成java代价很大,而且c++开发人员新学java语言的成本也很大。Hadoop后来推出了针对其他语言的hadoop streaming(运行作业的实用工具),但是此接口要求开发者仍然按照map reduce套路编写程序,map和reduce模块都需要修改已有的图像分析程序,是入侵式的逻辑。
综上所述,现有分布式数据处理方法,程序开发的工作量大,开发成本高。
发明内容
为了解决相关技术存在的程序开发的工作量大,开发成本高的问题,本发明提供了一种分布式数据处理方法。
一方面,本发明提供了一种分布式数据处理方法,所述方法包括:
响应接收到的数据处理指令,读取配置文件;
根据所述配置文件所指示的数据存放目录,读取所述数据存放目录对应的待处理数据;
按照所述配置文件所指示的计算节点数量,对所述待处理数据进行划分,获得相应数量的数据块;
向每个计算节点上传所述数据块以及根据所述配置文件读取的数据分析程序,触发所述计算节点利用所述数据分析程序对所述数据块进行分析处理。
另一方面,本发明还提供了另一种分布式数据处理方法,所述方法包括:
接收客户端根据配置文件上传的多个数据块;所述多个数据块是所述客户端根据所述配置文件所指示的计算节点数量,对所获取的待处理数据进行划分得到的;
通过运行分布式文件系统存储所述多个数据块;
控制自身部署的多个计算节点拉取存储的所述数据块,并运行所述客户端根据所述配置文件上传的数据分析程序对拉取的所述数据块进行分析处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯大地通途(北京)科技有限公司;腾讯科技(深圳)有限公司,未经腾讯大地通途(北京)科技有限公司;腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810492658.7/2.html,转载请声明来源钻瓜专利网。