[发明专利]读取和写入用于HADOOP计算的数据的方法和系统有效
申请号: | 201410305744.4 | 申请日: | 2014-06-30 |
公开(公告)号: | CN104050290B | 公开(公告)日: | 2018-03-02 |
发明(设计)人: | 杨斐 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天健君律专利代理事务所(普通合伙)11461 | 代理人: | 罗延红,逯博 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 提供一种读取和写入用于HADOOP计算的数据的方法和系统。一种从非HADOOP分布式文件系统(HDFS)读取用于HADOOP计算的输入数据的方法,其特征在于,所述方法包括定义用于从所述非HDFS读取数据的数据读取类,所述数据读取类继承RecordReader类;实现在HADOOP分布式计算模型中的InputFormat类中的getRecordReader方法和getSplits方法。其中,在实现的getRecordReader方法中,创建定义的数据读取类的实例或对象并返回所述实例或对象,并且在实现的getSplits方法中,将从调用的getRecordReader方法返回的RecordReader实例或对象确认为定义的数据读取类的实例或对象。本发明剥离了HADOOP对HDFS的强烈依赖,减少了数据的读取次数、复制次数并且节省了存储空间和处理时间。 | ||
搜索关键词: | 读取 写入 用于 hadoop 计算 数据 方法 系统 | ||
【主权项】:
一种从非HADOOP分布式文件系统HDFS读取用于HADOOP计算的输入数据的方法,其特征在于,所述方法包括:定义用于从所述非HDFS读取数据的数据读取类,所述数据读取类继承RecordReader类;实现在HADOOP分布式计算模型中的InputFormat类中的getRecordReader方法和getSplits方法,其中,在实现的getRecordReader方法中,创建定义的数据读取类的实例或对象并返回所述实例或对象,并且在实现的getSplits方法中,将从调用的getRecordReader方法返回的RecordReader实例或对象确认为定义的数据读取类的实例或对象。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410305744.4/,转载请声明来源钻瓜专利网。