[发明专利]标签数据的生成方法和装置在审

专利信息
申请号: 201811501575.6 申请日: 2018-12-10
公开(公告)号: CN111291352A 公开(公告)日: 2020-06-16
发明(设计)人: 高林杰 申请(专利权)人: 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号: G06F21/36 分类号: G06F21/36;G06F16/53
代理公司: 北京德琦知识产权代理有限公司 11018 代理人: 孙清然;王琦
地址: 100083 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 标签 数据 生成 方法 装置
【说明书】:

本申请公开了一种标签数据的生成方法和装置,包括:当需要对用户进行身份验证时,对于待识别的对象,从该对象的已标记图片集合中选择第一数量张具有正标签的图片和第二数量张具有负标签的图片,从该对象的未标记图片集合中选择一张未标记图片;触发所述用户从所选择的所有图片中选择出属于所述对象的图片;根据所述用户的选择结果,为所述未标记图片标记标签。采用本发明,可以增加标签数据的真实性以及标签的正确性,有利于机器学习模型训练的准确性,且效率高、实现成本低。

技术领域

本发明涉及计算机应用技术,特别是涉及一种标签数据的生成方法和装置。

背景技术

在海量数据时代,深度学习为人工智能带来了新的机会。这些机会集中在三个地方:文本、图片和语音识别。传统的机器学习算法,数据增长到一定体量,算法效果会遇到瓶颈。但如果运用新的深度学习算法,随着数据的增长,算法的效果可以持续提升。Google的研究人员用3亿张图的内部数据集做了实验,然后写了篇论文。他们指出,在深度模型中,视觉任务性能随训练数据量(取对数)的增加,线性上升。所以训练数据的数量对计算机视觉任务(图片分类、目标检测、图片风格迁移等)的效果影响比较大。

目前,获取带标签的训练图片数据的主要方式有两种,一种是人工标记的方式,另一种是数据扩充的方式。其中,人工标记的方式主要是通过人工对图片进行标记标签,形成训练数据集。数据扩充的方式主要是在人工标记的图片的基础上进行镜像翻转(Mirroring)、随机剪裁(Random Cropping)、色彩转换(Color shifting)等操作来扩充原有数据集。

在实现本发明过程中,发明人发现上述现有的标签标记方案至少存在如下问题:

人工标记图片的方式需要消耗大量的人力,一方面成本较高,另一方面出于成本的控制无法采用对每张图片综合多人标记结果的方式来降低个体对图片的标记错误率,从而使得标记数据集的标签存在一定的错误。

而对于数据扩充的方式,虽然能够增加训练图片数量,且不需要人工参与,但是由于是对人工标记的图片的变形结果,并不能准确地描述图片所属对象的真实形态,因此,利用数据扩充后得到的训练数据训练机器学习模型会影响训练结果的准确性。

由此可见,现有的标签数据生成方案存在成本高、标签错误或影响训练准确性的问题。

发明内容

有鉴于此,本发明的主要目的在于提供一种标签数据的生成方法和装置,可以增加标签数据的真实性以及标签的正确性,有利于机器学习模型训练的准确性,且实现成本低。

为了达到上述目的,本发明实施例提出的技术方案为:

一种标签数据的生成方法,包括:

当需要对用户进行身份验证时,对于待识别的对象,从该对象的已标记图片集合中选择第一数量张具有正标签的图片和第二数量张具有负标签的图片,从该对象的未标记图片集合中选择一张未标记图片;

触发所述用户从所选择的所有图片中选择出属于所述对象的图片;

根据所述用户的选择结果,为所述未标记图片标记标签。

较佳地,触发所述用户从所选择的所有图片中选择出属于所述对象的图片包括:

触发在所述用户的终端设备上显示待选图片和一张示例图片,并通知所述用户从所述待选图片中选择出与所述示例图片具有相同内容的所有图片,其中,所述待选图片包括所述第一数量张具有正标签的图片、所述第二数量张具有负标签的图片和所述未标记图片,所述示例图片为具有所述对象内容的图片。

较佳地,根据所述用户的选择结果,为所述未标记图片标记标签包括:

根据所述用户的选择结果,对所述用户进行身份验证;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811501575.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top