[发明专利]一种标注数据自动质检方法在审
申请号: | 202010198134.4 | 申请日: | 2020-03-19 |
公开(公告)号: | CN111444166A | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 邹辉;肖龙源;蔡振华;李稀敏;刘晓葳;谭玉坤 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 厦门原创专利事务所(普通合伙) 35101 | 代理人: | 徐东峰 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标注 数据 自动 质检 方法 | ||
本发明公开了一种标注数据自动质检方法,包括:S1,获取待标注数据,并将所述待标注数据分为n个批次,每个批次包含m条数据;S2,从每个批次的数据中抽取预设数量的数据进行标注,作为已标注的初始标准数据集;S3,将所述初始标准数据集加入到每个批次的数据中,并对混有所述初始标准数据集的每个批次的数据进行标注;S4,通过对步骤S3中已标注的数据进行检测,并由后台自动计算所述初始标准数据集的准确率;S5,判断所述准确率是否达到预设标准值,若是,则通过自动质检;否则,执行步骤S2进行重新标注。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种标注数据自动质检方法。
背景技术
对于AI行业,数据标注需求量越来越大,传统方法是由人工抽查做质量检查,通过人工质检后查看合格率,通常每返回一批数据就抽查一次,耗时耗力。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足提供一种标注数据自动质检方法,从而只需抽样标注一批标准数据即可用于检测每一批的标注质量,省事省力。
为实现上述目的,本发明提供一种标注数据自动质检方法,所述方法包括:
S1,获取待标注数据,并将所述待标注数据分为n个批次,每个批次包含m条数据;
S2,从每个批次的数据中抽取预设数量的数据进行标注,作为已标注的初始标准数据集;
S3,将所述初始标准数据集加入到每个批次的数据中,并对混有所述初始标准数据集的每个批次的数据进行标注;
S4,通过对步骤S3中已标注的数据进行检测,并由后台自动计算所述初始标准数据集的准确率;
S5,判断所述准确率是否达到预设标准值,若是,则通过自动质检;否则,执行步骤S2进行重新标注。
优选的,在步骤S4中,计算所述初始标准数据集的准确率为通过抽取步骤S3已标注的数据中的所述初始标准数据集,并作为第一标注阈值,将所述第一标注阈值与步骤S2中的所述初始标准数据集进行比对分析,得到准确率。
优选的,在步骤S2中,所述抽取根据关键信息分层进行抽样,所述标注通过人工完成。
优选的,在步骤S2中,所述预设数量定义为m1,满足m1=10%*m。
优选的,在步骤S3之前还包括对所述初始标准数据集进行加噪音以及关键信息的错别字替换。
优选的,在步骤S3中还包括对所述初始标准数据集中所标注的问题打标签,所述所标注的问题包括常见问题、疑难问题以及错误率低的问题。
有益效果:
1.只需抽样标注一批标准数据集即可用于检测每一批的标注质量,省事省力。
2.对标注标准数据集进行更新维护,保证质检结果的质量。
附图说明
图1为本发明一实施例提供的一种标注数据自动质检方法的流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合实施例详细阐述本发明的内容。
参照图1所示,为本发明一实施例提供的一种标注数据自动质检方法的流程图。所述方法包括:
S1,获取待标注数据,并将所述待标注数据分为n个批次,每个批次包含m条数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010198134.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电力传感设备加密认证方法
- 下一篇:一种异构物联网的跨域认证方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置