[发明专利]读写通信方法、读写器装置及存储介质有效
申请号: | 201910912855.4 | 申请日: | 2019-09-25 |
公开(公告)号: | CN110750251B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 何海林;徐滢 | 申请(专利权)人: | 成都品果科技有限公司 |
主分类号: | G06F8/30 | 分类号: | G06F8/30;G06N20/00 |
代理公司: | 成都玖和知识产权代理事务所(普通合伙) 51238 | 代理人: | 胡琳梅 |
地址: | 610041 四川省成都市中国(四川)自*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 读写 通信 方法 装置 存储 介质 | ||
本发明公开一种读写通信方法、读写器装置及存储介质,基于TensorFlow工具包和Spark计算框架的用于操作TFRecord格式的文件,包括:在Spark环境中,基于Scala代码实现一个TFRecord生成器,该工具用于在Spark集群中将相关数据基于DataFrame生成Meta信息;TFRecord生成器将Meta信息和数据文件本身到文件系统中;基于TensorFlow工具包基于Python代码实现一个TFRecord读取器,用于读取文件系统中的Meta信息和TFRecord格式的文件;基于TFRecord读取器实现多种需求完成数据采样进行模型训练等工作;本发明为模型生成千万级甚至更大量级的数据样本,满足深度训练需要,同时,基于本技术方案,通过样本量以及输出的样本文件数,能够完成数据抽样和分组,另外,本技术方案无需进行手动处理,可以大大减少人工干预和编码,更加方便、高效。
技术领域
本发明涉及应用程序领域和涉及一部分机器学习领域,具体涉及一种基于TensorFlow和Spark实现的TFRecord格式文件的读写通信方法、读写器装置及存储介质。
背景技术
TensorFlow是一种开源工具包,用于实现各种机器学习模型,已经被很多机器学习研究和开发人员应用在各种场景下。TFRecord格式作为使用TensorFlow工具包进行机器学习模型训练和推理过程中常见的文件格式,可以为多种类型的机器学习模型提供数据样本,例如LSTM、DNN、Deep MF等深度学习模型。在一些规模较小的数据可以通过类似NumPy工具包生成类似DataFrame格式的基于内存的数据以便快速导入。但当数据量非常大时,就需要将样本数据文件存储到硬盘中,在模型训练或者推理过程中以小批量的方式分批读取,基于TFRecord就可以完成大规模的较快的数据移动、读取、处理速度,达到加快训练或者推理的速度,同时可以节约内存空间。以序列化模型举例来说,一个用户需要获取较长时间段内的样本数据,比如30天内的对某一物品的浏览和点击记录;如果加上用户量比较大时,处理和生成TFRecord格式的数据的操作本身就会耗费非常多的计算资源和时间成本,而后续在模型中也只能取一部分甚至一小部分的样本数据进行模型训练,可能会造成模型欠拟合的情况。
发明内容
为了解决上述问题,本发明提供一种基于Spark框架和TensorFlow工具包开发的用于生成和读取包含Meta信息的TFRecord格式文件的软件代码包。以解决较大规模数据量需求下产生的用于机器学习训练和推理的样本数据,使用方便、高效,且后续获取更加灵活。
为此,本发明采用的技术方案是:
本发明第一方面提供了一种分别基于TensorFlow和Spark实现的TFRecord格式的读写通信方法,分别基于Spark的TFRecord格式文件生成器,以及基于TensorFlow工具包的TFRecord格式文件读取器。具体包括:
S1.使用Spark将数据进行分片并读取相应信息
使用Spark将数据进行分片并读取到内存队列中,从内存队列中读取对应分片中的样本数据量以及DataFrame中每个字段的数据格式信息进行处理,得到元数据信息;
S2.基于Scala代码以及相关工具包,将S1所述DataFrame中每个字段的数据格式信息和元数据信息写入到文件系统中;
S3.基于TensorFlow工具包,提供一个TFRecord格式的读取器,所述读取器通过读取元数据信息文件,获取所述文件系统中TFRecord格式样本数量;
S4.基于TensorFlow中的DataSet从所述文件系统中读取对应抽样的TFRecord格式的文件数据。
进一步地,S1中所述DataFrame中每个字段的数据格式信息包括:字段名、字段类型和默认值。
进一步地,S1中所述元数据信息包括:文件名、数据样本数量、文件大小、路径、存储位置和/或时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都品果科技有限公司,未经成都品果科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910912855.4/2.html,转载请声明来源钻瓜专利网。