[发明专利]一种基于用户自定义的数据集生成方法在审
申请号: | 201911280856.8 | 申请日: | 2019-12-13 |
公开(公告)号: | CN111177238A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 徐汕;张晶亮;梁炬;谢水庚;郝志强;滕源;刘澜涛;姜桥 | 申请(专利权)人: | 北京航天云路有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 北京纽乐康知识产权代理事务所(普通合伙) 11210 | 代理人: | 范赤 |
地址: | 100039 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 自定义 数据 生成 方法 | ||
本发明公开了一种基于用户自定义的数据集生成方法,该方法包括以下步骤:用户设定数据集参数,系统自动生成对应的数据集;依据数据需要审核参数、数据源参数,从消息队列中获取符合要求的数据;调用接口,处理并获取处理后的数据;写入数据到服务器的文件中,判断数据处理情况,完成数据的处理;压缩所述文件;依据实际的数据条数,更新并存储数据库中的数据集信息;发送完成创建数据集信息到应用层。通过采用版本参数和数据类型参数创建的数据集,对用户来说具有更强的针对性与专业性。因为数据集是面向特定的应用领域的,如图像描述、实体识别、关系抽取等,使用户不需再进行额外的数据处理,做到了“拿来即用”。
技术领域
本发明涉及数据标注技术领域,具体来说,涉及一种基于用户自定义的数据集生成方法。
背景技术
海量数据,是人工智能的血液,是深度学习的饲料。在人工智能技术飞速发展的今天,需要大量的、带有标签的数据为深度模型的训练提供持续的数据支撑,用于训练的数据越多、数据质量越好,深度学习的计算结果越准确。
目前,国内市场越来越多的头部公司开始组建自己的数据标注部门,京东(京东众智)、百度(百度众测)、腾讯、阿里(阿里数据标注)都已经拥有自己的标注平台和工具,提供标注以及数据服务,客户可提供数据给平台进行标注,也可直接在数据商店中购买已标注好的数据。
通过对标注市场的调研发现,市场上缺乏高质量的工业领域数据,因此无法满足市场对于工业领域标注数据日益增长的需求。
发明内容
针对相关技术中的上述技术问题,本发明提出一种基于用户自定义的数据集生成方法,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于用户自定义的数据集生成方法,该方法包括
S1:用户设定数据集参数,系统自动生成对应的数据集;
S2:依据数据需要审核参数、数据源参数,从消息队列中获取符合要求的数据;
S3:调用接口,处理并获取处理后的数据;
S4:写入数据到服务器的文件中,判断数据处理情况,完成数据的处理;
S5:压缩所述文件;
S6:依据实际的数据条数,更新并存储数据库中的数据集信息;
S7:发送完成创建数据集信息到应用层。
进一步的,所述步骤S1中系统自动生成对应的数据集的步骤包括以下步骤:
S11:获取创建数据集的请求信息和数据集参数;
S12:依据数据集参数,插入并存储数据集的初始信息到数据库。
进一步的,所述步骤S3包括以下步骤:
S31:依据版本参数,系统自动识别数据集版本号,调用对应接口;
S32:发送数据信息到所述对应接口;
S33:所述对应接口获取数据信息,批处理数据,返回处理后的数据。
进一步的,所述用户设定数据集参数的步骤中,用户设定应用类别参数、数据类别参数、数据源参数、数据需要审核参数、版本参数、条数参数,其中,用户依据开发环境设定应用类别,用户依据数据的应用场景设定数据类别,不同版本数据集的数据格式不尽相同,每一个数据集支持一个特定的算法模型。
进一步的,所述数据源参数中的数据必须已经过人工标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航天云路有限公司,未经北京航天云路有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911280856.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置