[发明专利]一种数据集获取方法、系统、设备以及介质在审
申请号: | 202011400015.9 | 申请日: | 2020-12-04 |
公开(公告)号: | CN112463833A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 邢良占 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/182;G06K9/62;G06N20/20 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 刘小峰;张涛 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 获取 方法 系统 设备 以及 介质 | ||
本发明公开了一种数据集获取方法,包括以下步骤:接收若干个数据集获取请求;将每一个所述请求中待获取数据集的唯一标识与下载进程ID关联;根据所述下载进程ID创建下载进程并利用所述下载进程下载对应的数据集;监控每一个所述下载进程的下载进度并反馈给对应的请求方。本发明还公开了一种系统、计算机设备以及可读存储介质。本发明提出的方案可以实现高效的对接分布式存储系统,实现高效、准确的数据集缓存、实时获取缓存进度、准确的中断问题数据集缓存进程,从而提高训练任务训练的速度,避免因为文件系统不统一,导致深度学习平台无法使用分布式文件系统中的数据集进行训练。
技术领域
本发明涉及深度学习领域,具体涉及一种数据集获取方法、系统、设备以及存储介质。
背景技术
目前,以深度学习为代表的人工智能技术取得了飞速的发展,这些技术正落地应用于各行各业。随着深度学习的广泛应用,很多领域产生了大量的、强烈的高效便捷训练人工智能模型方面的需求,而这些训练都是依赖于数据集,这些数据集小则几百G,大的甚至几T、几十T,甚至是PB级别的,这些数据大部分都是存储在私有的数据中心中,这些用户希望在构建私有的人工智能训练平台时,可以直接使用这些数据集数据,然而这种“私有存储+集群训练”的训练模式加剧了计算存储分离架构带来的远程数据访问的性能影响。计算存储分离这种基本架构虽然可以为计算资源和存储资源的配置和扩展带来更高的灵活性,但是如果从数据访问效率的角度来看,由于受限于网络传输带宽,用户在不经调优的情况下,简单使用这种架构通常会遇到模型训练性能下降的问题。同时,又因为大部分私有数据中心中采用分布式文件系统来存储数据集,比如HDFS等分布式文件系统,造成深度学习平台对接的困难;
在目前的技术中,大部分深度学习平台都是支持对接NFS这种文件系统,而针对HDFS这种分布式文件系统没有一种很好的对接方式。
发明内容
有鉴于此,为了克服上述问题的至少一个方面,本发明实施例提出一种数据集获取方法,包括以下步骤:
接收若干个数据集获取请求;
将每一个所述请求中待获取数据集的唯一标识与下载进程ID关联;
根据所述下载进程ID创建下载进程并利用所述下载进程下载对应的数据集;
监控每一个所述下载进程的下载进度并反馈给对应的请求方。
在一些实施例中,还包括:
响应于在下载过程中再次接收到数据集获取请求,根据再次接收到的请求对应的待获取数据集的唯一标识判断当前是否存在关联的下载进程ID;
响应于存在,直接将所述关联的下载进程ID对应的下载进度反馈给请求方。
在一些实施例中,接收若干个数据集获取请求,进一步还包括:
将接收到的若干个数据集获取请求分别对应的唯一标识进行去重处理;
将进行去重处理得到的若干个待获取数据集的唯一标识分别与所述对应的请求方进行关联。
在一些实施例中,还包括:
响应于接收到请求方的中断下载数据集的请求,根据待中断下载的数据集的唯一标识判断是否存在其他请求方请求下载所述待中断下载的数据集;
响应于不存在,根据所述待中断下载的数据集的唯一标识确定对应的所述下载进程ID,以通过中断命令结束与所述对应的下载进程ID相对应的所述下载进程。
在一些实施例中,监控每一个所述下载进程的下载进度并反馈给对应的请求方,进一步包括:
将所述待获取数据集的下载进度反馈给每一个与所述待获取数据集的唯一标识关联的请求方。
在一些实施例中,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011400015.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置