[发明专利]一种人工智能数据标注方法和装置有效

专利信息
申请号: 201910467458.0 申请日: 2019-05-31
公开(公告)号: CN110263934B 公开(公告)日: 2021-08-06
发明(设计)人: 吕博 申请(专利权)人: 中国信息通信研究院
主分类号: G06N20/00 分类号: G06N20/00
代理公司: 北京德琦知识产权代理有限公司 11018 代理人: 杜志敏;宋志强
地址: 100191 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 人工智能 数据 标注 方法 装置
【说明书】:

本申请提供了一种人工智能数据标注方法和装置,该方法包括:获取待标注的数据集;基于建立的AI模型获取每条待标注的数据的概率分值最高的AI标签,以及概率分值;针对任一待标注数据,确定该概率分值是否大于第一预设阈值;当确定该概率分值大于第一预设阈值,且确定抽检该待标注的数据,或当确定该概率分值不大于第一预设阈值时,为该待标注数据标注人工标签;当确定该概率分值大于第一预设阈值,且确定不抽检该待标注的数据时,使用获取的概率分值最高的AI标签标注该待标注的数据。该方法节省了人工标注成本,以及实现时间成本,并减少人为主观因素和标注人员技术背景引入的标注误差。

技术领域

发明涉及数据处理技术领域,特别涉及一种人工智能数据标注方法和装置。

背景技术

随着互联网、机器学习、大数据和云计算等技术的飞速发展,各种信息数据以指数级的速度在持续增长,在大数据时代背景下,人工智能已经依托海量数据为多个行业赋能,滋生出多样化的行业应用。

目前人工智能所依托的机器学习和深度学习算法大部分是数据依赖的,需要大量的数据采用监督或半监督的方式训练算法,做定制化部署。由于我国大数据体量庞大,各行各业的数据类型复杂,数据维度较高,为数据标注任务提出了巨大的挑战。总体来说,目前数据标注中存在以下几项弊端:

数据标注人工成本高:AI算法训练需要海量标注样本,而目前海量的数据标注任务依赖人工方式实现,“有多少人工,就有多少智能”,造成制作数据集的成本高;

数据标注的质量难以保证:标注任务受标注人员和审查人员主观影响大,会引入一定的标注误差,数据一致性难以保证;

专业数据集标注门槛高:专业数据集如医疗、教育,以及电信网络等需要专业领域人员进行标注,相比于海量的数据标注需求,专业领域的标注人员过于稀缺,造成标注门槛过高,标注的尺度也难以保持一致。

可见,人工智能数据的标注成本高,且准确性不高。

发明内容

有鉴于此,本申请提供一种人工智能数据标注方法和装置,节省了人工标注成本,以及实现时间成本,并减少人为主观因素和标注人员技术背景引入的标注误差。

为解决上述技术问题,本申请的技术方案是这样实现的:

在一个实施例中,提供了一种人工智能数据标注方法,所述方法包括:

获取待标注的数据集;

基于建立的AI模型获取每条待标注的数据的概率分值最高的AI标签,以及概率分值;

针对任一待标注数据,确定该概率分值是否大于第一预设阈值;

当确定该概率分值大于第一预设阈值,且确定抽检该待标注的数据,或当确定该概率分值不大于第一预设阈值时,为该待标注数据标注人工标签;

当确定该概率分值大于第一预设阈值,且确定不抽检该待标注的数据时,使用获取的概率分值最高的AI标签标注该待标注的数据。

在另一个实施例中,提供了一种人工智能数据标注装置,所述装置包括:第一获取单元、第二获取单元、确定单元和标注单元;

所述第一获取单元,用于获取待标注的数据集;

所述第二获取单元,用于基于建立的AI模型获取所述第一获取单元获取的数据集中的每条待标注的数据的分值最高的AI标签,以及对应的分值;

所述确定单元,用于针对任一待标注数据,确定所述第二获取单元获取的该分值是否大于预设阈值;

所述标注单元,用于当所述确定单元确定该分值大于预设阈值,且确定抽检该待标注的数据,或当确定该分值不大于预设阈值时,为该待标注数据标注人工标签;当确定该分值大于预设阈值,且确定不抽检该待标注的数据时,使用获取的分值最高的AI标签标注该待标注的数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国信息通信研究院,未经中国信息通信研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910467458.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top