[发明专利]一种标注数据的审核方法及装置有效
申请号: | 201910458920.0 | 申请日: | 2019-05-29 |
公开(公告)号: | CN110232060B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 陈天伦;张孝磊 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/23;G06Q10/10 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 刘铁生;孟阿妮 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标注 数据 审核 方法 装置 | ||
本发明公开了一种标注数据的审核方法及装置,涉及数据处理技术领域,主要目的在于提高标注数据的审核效率;主要技术方案包括:获取未审核的标注数据集中的各标注数据的置信度值,所述置信度值与相应标注数据的标注的正确概率相关;基于标注数据的置信度值辅助标注数据的人工审核过程。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种标注数据的审核方法及装置。
背景技术
随着大数据时代的来临,众多行业的数据量成几何级数的增长。为了更好的对海量数据进行利用,通常对数据进行标注,以便使数据可以更好的驱动生产、经营、生活等各种活动。在数据应用于机器学习以及数据挖掘等场景下时,为了使已标注的标注数据更好更准确,通常需要对已标注好的标注数据进行审核。
目前,通常采用人工审核方式对已标注好的标注数据进行审核。在人工审核时,审核员需要逐个对标注数据进行人工审核,且全部的标注数据均要逐个被审核才能完成整个人工审核过程。可见,这种人工审核方式完全依赖于审核员的主动识别来完成审核,标注数据的审核量巨大,审核效率较低。
发明内容
有鉴于此,本发明提出了一种标注数据的审核方法及装置,主要目的在于提高标注数据的审核效率。
第一方面,本发明提供了一种标注数据的审核方法,该方法包括:
获取未审核的标注数据集中的各标注数据的置信度值,所述置信度值与相应标注数据的标注的正确概率相关;
基于标注数据的置信度值辅助标注数据的人工审核过程。
第二方面,本发明提供了一种标注数据的审核装置,该装置包括:
获取单元,用于获取未审核的标注数据集中的各标注数据的置信度值,所述置信度值与相应标注数据的标注的正确概率相关;
辅助单元,用于基于标注数据的置信度值辅助标注数据的人工审核过程。
第三方面,本发明提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行第一方面中任意一项所述的标注数据的审核方法。
第四方面,本发明提供了一种存储管理设备,包括:存储器,用于存储程序;处理器,耦合至所述存储器,用于运行所述程序以执行第一方面中任意一项所述的标注数据的审核方法。
借由上述技术方案,本发明提供的标注数据的审核方法及装置,首先获取未审核的标注数据集中的各标注数据的置信度值,然后基于标注数据的置信度值辅助标注数据的人工审核过程。由于置信度值与相应标注数据的标注的正确概率相关,在标注数据的人工审核过程中,标注数据的置信度值可以辅助确定最值得审核的标注数据,审核员可以对标注数据进行有针对性的审核。因此,本发明提供的方案可以提高标注数据的审核效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明一个实施例提供的一种标注数据的审核方法的流程图;
图2示出了本发明另一个实施例提供的一种标注数据的审核方法的流程图;
图3示出了本发明一个实施例提供的一种可视化界面的示意图;
图4示出了本发明另一个实施例提供的一种可视化界面的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910458920.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种校本资源题库数据管理系统
- 下一篇:一种配电网多源数据质量控制方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置