[发明专利]面向AI应用的数据版本管理方法、装置和计算机设备在审
申请号: | 202110548754.0 | 申请日: | 2021-05-20 |
公开(公告)号: | CN112988920A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 余跃;张禹;周悦;常峰;曾炜;田永鸿 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/27;G06F16/23 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 彭小兰 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 ai 应用 数据 版本 管理 方法 装置 计算机 设备 | ||
本申请涉及一种面向AI应用的数据版本管理方法、装置和计算机设备。所述方法包括:通过获取面向AI应用的待管理数据,由监控组件扫描,将待管理数据与已知数据集进行比对,标识出重复数据和新增数据;删除重复数据,将待管理数据提交到本地仓库,通过哈希图结构建立新增数据和已知数据集的关联信息,建立新增数据在本地仓库中位置的索引信息,根据新增数据和关联信息,得到新版本数据的版本信息;将新增数据、关联信息、索引信息和版本信息上传到远程仓库,完成待管理数据的增量式数据存储。本发明实现了基于识别和去除重复基础数据后单独保存部分新增数据的数据增量存储优化方法,支持数据共享、协同开发。
技术领域
本申请涉及计算机技术领域,特别是涉及一种面向AI应用的数据版本管理方法、装置、计算机设备和存储介质。
背景技术
AI定义为“系统地正确理解外部数据,并从此类数据中学习以及利用这些学习通过灵活的适应来实现特定目标和任务的能力。”随着数字化越来越深刻地影响当今社会,我们能够以前所未有的速度收集,例如数字、文本、音频、图像等。这些海量数据使模型能够更快地学习,推动AI迅猛发展。
在软件开发过程中,为了更有效地跟踪记录软件开发过程,技术团队往往会对软件代码及相关文档进行版本管理,即存储管理各个阶段完成的代码文档并加以标识,良好的版本管理能够帮助团队快速定位和修复错误更改、实现同时开发以提高效率、清楚掌握团队工作进度等。根据版本管理的发展历史,可以分为3个阶段:本地式、集中式和分布式三类版本管理系统。分布式版本管理作为当前使用最广泛的系统,使用Peer-Peer模式,将代码库进行端到端的镜像传输到开发本地,消除了集中式版本管理中的中心代码库,取而代之的是项目的每名开发者都拥有代码副本和完整的开发历史记录。
与普通的应用软件相比,AI应用的效果和质量更多地依赖于它所使用的AI模型和训练数据,AI应用的版本也与其所使用的训练数据版本具有对应关系。因此,如何更高效地管理数据版本以更好地配合AI应用的开发实践是目前急需研究的技术点。
现有的数据版本管理工具主要采取存储完整数据文件的方法,早期的版本控制系统,例如SVN,虽然支持代码文件的增量管理,但是针对AI应用中的大规模数据管理效率低,时间长,且集中式版本管理存在单点故障等缺陷,存在效率低,效果不佳的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高面向AI应用的数据版本管理效率的面向AI应用的数据版本管理方法、装置、计算机设备和存储介质。
一种面向AI应用的数据版本管理方法,所述方法包括:
获取面向AI应用的待管理数据,通过监控组件将所述待管理数据与已知数据集进行比对,标识出重复数据和新增数据;
删除所述重复数据,将所述待管理数据提交到本地仓库,通过哈希图结构建立所述新增数据和所述已知数据集的关联信息,建立所述新增数据在所述本地仓库中位置的索引信息,根据所述新增数据和所述关联信息,得到新版本数据的版本信息;
将所述新增数据、所述关联信息、所述索引信息和所述版本信息上传到远程仓库,完成所述待管理数据的增量式数据存储。
在其中一个实施例中,还包括:获取面向AI应用的待管理数据,将所述待管理数据从工作区加载到缓存区后,通过监控组件将所述待管理数据与已知数据集进行比对,标识出重复数据和新增数据。
在其中一个实施例中,还包括:获取面向AI应用的待管理数据,将所述待管理数据从工作区加载到缓存区后,通过监控组件将所述待管理数据与已知数据集进行比对,标识出重复数据和新增数据;所述已知数据集为预设的共有数据集或用户先前提交的数据集。
在其中一个实施例中,还包括:删除所述重复数据,将所述待管理数据提交到本地仓库;
通过哈希图结构建立所述新增数据和所述已知数据集的关联信息,并将所述新增数据和所述关联信息持久化存储在所述本地仓库中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110548754.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置