[发明专利]一种扩充类别式数据快速标注方法在审

专利信息
申请号: 201910626205.3 申请日: 2019-07-11
公开(公告)号: CN110334772A 公开(公告)日: 2019-10-15
发明(设计)人: 朱顺意;范继辉;瞿明军;李广立;刘雪健;周莉;巩志远;陈建学;杜来民;邓国超;白玥寅;张松;周雨晨 申请(专利权)人: 山东领能电子科技有限公司;山东大学;太原理工大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 济南金迪知识产权代理有限公司 37219 代理人: 许德山
地址: 250101 山东省济南市历下区新*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 标注 样本 初始数据集 初始数据 神经网络训练 标注文件 模型训练 人工微调 数据标签 样本训练 数据集 微调 应用 优化 保证 统一 服务
【说明书】:

本发明涉及一种扩充类别式数据快速标注方法,包括以下步骤:(1)获取带有统一标注A的初始数据集;(2)结合已有数据集,将A进一步分为a、b、c等多个子类;(3)选取初始数据集的一部分作为样本,通过人工修改标注文件,快捷地将标注从A重命名为a、b、c等,得到标注样本;(4)基于标注样本,利用神经网络训练模型,将所得模型对初始数据集中剩余的数据进行预标注,得到预标注数据;(5)对预标注数据进行人工微调,保证所涉及数据标签全部准确,基于初始数据与微调数据对模型训练优化,基于更多标注样本训练更优模型,最终准确地标注全部数据,提高标注效率;本发明能满足快速、准确地标注的需求,更好地服务于实际应用。

技术领域

本发明属于计算机技术领域,更具体地涉及一种扩充类别式数据快速标注方法。

背景技术

近年来,人工智能技术受到的关注度持续提升,大量的社会资本和智力、数据资源的汇集驱动人工智能技术研究不断发展。人工智能的经典技术为机器学习技术,而深度学习技术的出现使得机器学习能够实现众多应用,拓展了人工智能的领域范围,而其基础在于对大量数据添加标注信息。快速、准确地完成数据标注是实现课题、项目的关键一步。

目前,常见的数据标注方法为借助数据标注工具进行手动标注,耗时费力,效率较低。

中国专利文献CN109299296A公开了一种交互式图像文本标注方法与系统。具体公开了以下内容:本发明提供了一种交互式图像文本标注方法,包括以下步骤:服务器端接收由用户标注的图像和/或文本数据样本,并基于样本在服务器端训练模型;通过经训练的模型对新上传到服务器端的数据进行预标注;将预标注的数据发送到客户端以进行修正;以及所述服务器端接收修正后的数据以迭代更新训练模型。所述方法能够对原始数据集进行标注,较完全手动标注效率有所提高,但仍存在依赖标注工具、标注成本高等局限性。

发明内容

针对现有技术的不足,本发明提供了一种扩充类别式数据快速标注方法。

本发明针对带有统一标注A的公开数据集,或者利用基于公网大数据训练的公开模型,推理得到的带有统一标注A的私人数据集,满足快速、准确地标注的需求,更好地服务于实际应用。

本发明的技术方案为:

一种扩充类别式数据快速标注方法,包括以下步骤:

(1)获取带有统一标注A的初始数据,标注A是指的某一大类;比如初始标注均为Vehicle车辆;

(2)根据需求,结合已有数据集,将A进一步分为多个子类,大类包含所述多个子类;比如,根据需要将上文中的标注Vehicle进一步具体地分为car、bus等子类,由此,子类可理解为一种包含关系;

(3)选取初始数据集的一部分作为样本,通过人工修改标注文件,标注文件是指通过标注工具(如LabImg)标注数据后生成的文件(如xml文件),该文件中包含标注信息;这里可以直接得到初始的标注文件,快捷地将标注从A重命名为多个子类,得到标注样本;只需在已有数据的基础上进行微调,无需从头开始分类标注,不再依赖于数据标注工具。

(4)基于标注样本,利用神经网络训练模型,将所得模型对初始数据集中剩余的数据进行预标注,得到预标注数据;

进一步优选的,步骤(4)中,利用人工神经网络(Artificial Neural Network,即ANN),基于人工神经网络的特性,从信息处理角度对人脑神经元网络进行抽象,建立人工神经网络模型,按不同的连接方式组成不同的网络,此样例中,所用人工神经网络为可以实现目标检测功能的网络,并基于此训练人工神经网络模型,将所得人工神经网络模型对初始数据集中剩余的数据进行预标注,得到预标注数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东领能电子科技有限公司;山东大学;太原理工大学,未经山东领能电子科技有限公司;山东大学;太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910626205.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top