[发明专利]数据标注修正方法、装置、计算机可读介质及电子设备有效

申请号：	201910704540.0	申请日：	2019-07-31
公开（公告）号：	CN110399933B	公开（公告）日：	2021-05-07
发明（设计）人：	李佩易;王长虎	申请（专利权）人：	北京字节跳动网络技术有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京英创嘉友知识产权代理事务所(普通合伙) 11447	代理人：	魏嘉熹
地址：	100041 北京市石景山区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本公开涉及AI领域，具体地，涉及一种数据标注修正方法、装置、计算机可读介质及电子设备。本公开采用多个不同表达能力的学习模型同时计算训练集内每一样本数据的分类分数，并且选出在每一所述学习模型下的分类分数均在该学习模型对应的阈值范围内的样本数据作为需要修正的样本数据，将多个学习模型计算得到的分类标注占比最高的作为该样本数据的标注。因而，本公开无需对训练集中所有样本数据都进行标注修正，能够自动对样本数据进行核查，寻找出最容易出现标注出错问题的样本数据集，自动且较准确地对该样本数据集内的标注进行修正，代替人工标注，具有高效而低成本特点。
搜索关键词：	数据标注修正方法装置计算机可读介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种数据标注修正方法，其特征在于，所述方法包括：针对多个不同深度的学习模型，分别计算训练集中需要进行标注修正的样本数据的分类分数的阈值范围，得到每一所述学习模型对应的阈值范围，其中，每一所述学习模型是采用所述训练集训练得到的；将所述训练集分别输入每一所述学习模型，得到所述训练集中每一样本数据在各所述学习模型下的分类分数；根据每一所述样本数据在各个所述学习模型下的分类分数，确定待进行标注修正的目标样本集，对于所述目标样本集中的任一样本数据，该样本数据在每一所述学习模型下的分类分数均在该学习模型对应的阈值范围内；针对所述目标样本集中的每一样本数据，获取该样本数据输入各所述学习模型后得到的分类标注，并根据该样本数据的每一种分类标注的占比，将该样本数据的标注修正为占比最高的分类标注。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司，未经北京字节跳动网络技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910704540.0/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]数据标注修正方法、装置、计算机可读介质及电子设备有效

专利文献下载