[发明专利]一种管理平台数据集的方法、系统、设备和存储介质在审
申请号: | 202111274269.5 | 申请日: | 2021-10-29 |
公开(公告)号: | CN114138719A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 郑玉会 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/13;G06F16/18 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 刘小峰;陈黎明 |
地址: | 215000 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 管理 平台 数据 方法 系统 设备 存储 介质 | ||
本发明提供一种管理平台数据集的方法、系统、设备和存储介质,方法包括:将每个数据集中的文件采用多叉树结构来进行表示;选择要操作的数据集,并查询数据库中所述数据集已存在的最大版本号;对所述数据集进行操作,根据所述操作发布新的版本的数据集,并将所述数据库中的最大版本号加一;以及根据对应版本的数据集提交训练任务,并进行训练以生成模型。本发明有效的解决了数据修改难、管理缺失的问题;便于用户方便的从Web端进行数据集增删改的操作,且涉及较少的底层数据搬运,减少数据冗余。
技术领域
本发明涉及人工智能领域,更具体地,特别是指一种管理平台数据集的方法、系统、设备和存储介质。
背景技术
随着AI(Artificial Intelligence,人工智能)训练平台的广泛推广,企业级应用越来越多,用户对于训练任务所用数据集的使用需求逐步增多,已经不仅仅局限于一份数据集的使用,用户经常需要对于其原始数据集做一些数据处理,形成一份新的数据集,继续跑一个新的训练任务。现有AI平台中大多提供一个公共数据集,用户很难根据需求对数据集稍作修改后,重新进行训练。AI平台的数据集管理功能,包括数据集增删改、处理流程可追溯,数据集多版本发布等,是目前客户需要的数据集管理解决方案,提高软件的可用性、易用性。该方案使用户对某原始数据集稍作更改后,发布该版本数据集,并指定特定版本数据集提交训练任务,进行训练生成模型。
目前AI训练平台采用公共数据集,公共数据集只可查看,不可修改,如果用户需要在公共数据集的基础上进行增删改,则需要从底层将公共数据集拷贝到用户家目录下,并做修改。但是多数情况下,用户所使用的数据集变化不大,可能仅仅是针对几张图片做了修改,这样拷贝大大降低了效率,而且数据集冗余度极高,浪费大量的存储空间。
发明内容
有鉴于此,本发明实施例的目的在于提出一种管理平台数据集的方法、系统、计算机设备及计算机可读存储介质,本发明利用多叉树结构和文件标签,并结合数据库存储,对处理的数据集进行发布并管理,以便用户可以方便的选择各个版本的数据集提交训练任务,有效的解决了数据修改难、管理缺失的问题;便于用户方便的从Web端进行数据集增删改的操作,且涉及较少的底层数据搬运,减少数据冗余,使用户提交训练任务时可以根据需求选择对应的数据集版本训练生成模型。
基于上述目的,本发明实施例的一方面提供了一种管理平台数据集的方法,包括如下步骤:将每个数据集中的文件采用多叉树结构来进行表示;选择要操作的数据集,并查询数据库中所述数据集已存在的最大版本号;对所述数据集进行操作,根据所述操作发布新的版本的数据集,并将所述数据库中的最大版本号加一;以及根据对应版本的数据集提交训练任务,并进行训练以生成模型。
在一些实施方式中,所述根据所述操作发布新的版本的数据集包括:响应于对所述数据集进行新增文件,创建第一目录并将新增的文件上传到所述第一目录中,并在所述第一目录中添加新增文件标签。
在一些实施方式中,所述根据所述操作发布新的版本的数据集包括:响应于对所述数据集进行删除文件,创建第二目录并在所述第二目录中添加删除文件标签。
在一些实施方式中,所述根据所述操作发布新的版本的数据集包括:响应于对所述数据集进行修改文件,创建第三目录并将修改后的文件上传到所述第三目录,并在所述第三目录中添加新增文件标签和删除文件标签。
本发明实施例的另一方面,提供了一种管理平台数据集的系统,包括:显示模块,配置用于将每个数据集中的文件采用多叉树结构来进行表示;查询模块,配置用于选择要操作的数据集,并查询数据库中所述数据集已存在的最大版本号;执行模块,配置用于对所述数据集进行操作,根据所述操作发布新的版本的数据集并适应性修改所述数据集对应的多叉树结构,并将所述数据库中的最大版本号加一;以及训练模块,配置用于根据对应版本的数据集提交训练任务,并进行训练以生成模型。
在一些实施方式中,所述执行模块配置用于:响应于对所述数据集进行新增文件,创建第一目录并将新增的文件上传到所述第一目录中,并在所述第一目录中添加新增文件标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111274269.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置