[发明专利]一种人工智能数据标注方法和装置有效
申请号: | 201910467458.0 | 申请日: | 2019-05-31 |
公开(公告)号: | CN110263934B | 公开(公告)日: | 2021-08-06 |
发明(设计)人: | 吕博 | 申请(专利权)人: | 中国信息通信研究院 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 杜志敏;宋志强 |
地址: | 100191 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 人工智能 数据 标注 方法 装置 | ||
本申请提供了一种人工智能数据标注方法和装置,该方法包括:获取待标注的数据集;基于建立的AI模型获取每条待标注的数据的概率分值最高的AI标签,以及概率分值;针对任一待标注数据,确定该概率分值是否大于第一预设阈值;当确定该概率分值大于第一预设阈值,且确定抽检该待标注的数据,或当确定该概率分值不大于第一预设阈值时,为该待标注数据标注人工标签;当确定该概率分值大于第一预设阈值,且确定不抽检该待标注的数据时,使用获取的概率分值最高的AI标签标注该待标注的数据。该方法节省了人工标注成本,以及实现时间成本,并减少人为主观因素和标注人员技术背景引入的标注误差。
技术领域
本发明涉及数据处理技术领域,特别涉及一种人工智能数据标注方法和装置。
背景技术
随着互联网、机器学习、大数据和云计算等技术的飞速发展,各种信息数据以指数级的速度在持续增长,在大数据时代背景下,人工智能已经依托海量数据为多个行业赋能,滋生出多样化的行业应用。
目前人工智能所依托的机器学习和深度学习算法大部分是数据依赖的,需要大量的数据采用监督或半监督的方式训练算法,做定制化部署。由于我国大数据体量庞大,各行各业的数据类型复杂,数据维度较高,为数据标注任务提出了巨大的挑战。总体来说,目前数据标注中存在以下几项弊端:
数据标注人工成本高:AI算法训练需要海量标注样本,而目前海量的数据标注任务依赖人工方式实现,“有多少人工,就有多少智能”,造成制作数据集的成本高;
数据标注的质量难以保证:标注任务受标注人员和审查人员主观影响大,会引入一定的标注误差,数据一致性难以保证;
专业数据集标注门槛高:专业数据集如医疗、教育,以及电信网络等需要专业领域人员进行标注,相比于海量的数据标注需求,专业领域的标注人员过于稀缺,造成标注门槛过高,标注的尺度也难以保持一致。
可见,人工智能数据的标注成本高,且准确性不高。
发明内容
有鉴于此,本申请提供一种人工智能数据标注方法和装置,节省了人工标注成本,以及实现时间成本,并减少人为主观因素和标注人员技术背景引入的标注误差。
为解决上述技术问题,本申请的技术方案是这样实现的:
在一个实施例中,提供了一种人工智能数据标注方法,所述方法包括:
获取待标注的数据集;
基于建立的AI模型获取每条待标注的数据的概率分值最高的AI标签,以及概率分值;
针对任一待标注数据,确定该概率分值是否大于第一预设阈值;
当确定该概率分值大于第一预设阈值,且确定抽检该待标注的数据,或当确定该概率分值不大于第一预设阈值时,为该待标注数据标注人工标签;
当确定该概率分值大于第一预设阈值,且确定不抽检该待标注的数据时,使用获取的概率分值最高的AI标签标注该待标注的数据。
在另一个实施例中,提供了一种人工智能数据标注装置,所述装置包括:第一获取单元、第二获取单元、确定单元和标注单元;
所述第一获取单元,用于获取待标注的数据集;
所述第二获取单元,用于基于建立的AI模型获取所述第一获取单元获取的数据集中的每条待标注的数据的分值最高的AI标签,以及对应的分值;
所述确定单元,用于针对任一待标注数据,确定所述第二获取单元获取的该分值是否大于预设阈值;
所述标注单元,用于当所述确定单元确定该分值大于预设阈值,且确定抽检该待标注的数据,或当确定该分值不大于预设阈值时,为该待标注数据标注人工标签;当确定该分值大于预设阈值,且确定不抽检该待标注的数据时,使用获取的分值最高的AI标签标注该待标注的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国信息通信研究院,未经中国信息通信研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910467458.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型分数阶混沌系统
- 下一篇:基于机器学习算法的人工智能行业在线建模平台
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置