[发明专利]标签数据的生成方法和装置在审
申请号: | 201811501575.6 | 申请日: | 2018-12-10 |
公开(公告)号: | CN111291352A | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 高林杰 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F21/36 | 分类号: | G06F21/36;G06F16/53 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 孙清然;王琦 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签 数据 生成 方法 装置 | ||
本申请公开了一种标签数据的生成方法和装置,包括:当需要对用户进行身份验证时,对于待识别的对象,从该对象的已标记图片集合中选择第一数量张具有正标签的图片和第二数量张具有负标签的图片,从该对象的未标记图片集合中选择一张未标记图片;触发所述用户从所选择的所有图片中选择出属于所述对象的图片;根据所述用户的选择结果,为所述未标记图片标记标签。采用本发明,可以增加标签数据的真实性以及标签的正确性,有利于机器学习模型训练的准确性,且效率高、实现成本低。
技术领域
本发明涉及计算机应用技术,特别是涉及一种标签数据的生成方法和装置。
背景技术
在海量数据时代,深度学习为人工智能带来了新的机会。这些机会集中在三个地方:文本、图片和语音识别。传统的机器学习算法,数据增长到一定体量,算法效果会遇到瓶颈。但如果运用新的深度学习算法,随着数据的增长,算法的效果可以持续提升。Google的研究人员用3亿张图的内部数据集做了实验,然后写了篇论文。他们指出,在深度模型中,视觉任务性能随训练数据量(取对数)的增加,线性上升。所以训练数据的数量对计算机视觉任务(图片分类、目标检测、图片风格迁移等)的效果影响比较大。
目前,获取带标签的训练图片数据的主要方式有两种,一种是人工标记的方式,另一种是数据扩充的方式。其中,人工标记的方式主要是通过人工对图片进行标记标签,形成训练数据集。数据扩充的方式主要是在人工标记的图片的基础上进行镜像翻转(Mirroring)、随机剪裁(Random Cropping)、色彩转换(Color shifting)等操作来扩充原有数据集。
在实现本发明过程中,发明人发现上述现有的标签标记方案至少存在如下问题:
人工标记图片的方式需要消耗大量的人力,一方面成本较高,另一方面出于成本的控制无法采用对每张图片综合多人标记结果的方式来降低个体对图片的标记错误率,从而使得标记数据集的标签存在一定的错误。
而对于数据扩充的方式,虽然能够增加训练图片数量,且不需要人工参与,但是由于是对人工标记的图片的变形结果,并不能准确地描述图片所属对象的真实形态,因此,利用数据扩充后得到的训练数据训练机器学习模型会影响训练结果的准确性。
由此可见,现有的标签数据生成方案存在成本高、标签错误或影响训练准确性的问题。
发明内容
有鉴于此,本发明的主要目的在于提供一种标签数据的生成方法和装置,可以增加标签数据的真实性以及标签的正确性,有利于机器学习模型训练的准确性,且实现成本低。
为了达到上述目的,本发明实施例提出的技术方案为:
一种标签数据的生成方法,包括:
当需要对用户进行身份验证时,对于待识别的对象,从该对象的已标记图片集合中选择第一数量张具有正标签的图片和第二数量张具有负标签的图片,从该对象的未标记图片集合中选择一张未标记图片;
触发所述用户从所选择的所有图片中选择出属于所述对象的图片;
根据所述用户的选择结果,为所述未标记图片标记标签。
较佳地,触发所述用户从所选择的所有图片中选择出属于所述对象的图片包括:
触发在所述用户的终端设备上显示待选图片和一张示例图片,并通知所述用户从所述待选图片中选择出与所述示例图片具有相同内容的所有图片,其中,所述待选图片包括所述第一数量张具有正标签的图片、所述第二数量张具有负标签的图片和所述未标记图片,所述示例图片为具有所述对象内容的图片。
较佳地,根据所述用户的选择结果,为所述未标记图片标记标签包括:
根据所述用户的选择结果,对所述用户进行身份验证;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811501575.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:PCRF容灾方法、系统和PGW
- 下一篇:磁动能切割发电装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置