[发明专利]一种扩充类别式数据快速标注方法在审
申请号: | 201910626205.3 | 申请日: | 2019-07-11 |
公开(公告)号: | CN110334772A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 朱顺意;范继辉;瞿明军;李广立;刘雪健;周莉;巩志远;陈建学;杜来民;邓国超;白玥寅;张松;周雨晨 | 申请(专利权)人: | 山东领能电子科技有限公司;山东大学;太原理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 许德山 |
地址: | 250101 山东省济南市历下区新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标注 样本 初始数据集 初始数据 神经网络训练 标注文件 模型训练 人工微调 数据标签 样本训练 数据集 微调 应用 优化 保证 统一 服务 | ||
本发明涉及一种扩充类别式数据快速标注方法,包括以下步骤:(1)获取带有统一标注A的初始数据集;(2)结合已有数据集,将A进一步分为a、b、c等多个子类;(3)选取初始数据集的一部分作为样本,通过人工修改标注文件,快捷地将标注从A重命名为a、b、c等,得到标注样本;(4)基于标注样本,利用神经网络训练模型,将所得模型对初始数据集中剩余的数据进行预标注,得到预标注数据;(5)对预标注数据进行人工微调,保证所涉及数据标签全部准确,基于初始数据与微调数据对模型训练优化,基于更多标注样本训练更优模型,最终准确地标注全部数据,提高标注效率;本发明能满足快速、准确地标注的需求,更好地服务于实际应用。
技术领域
本发明属于计算机技术领域,更具体地涉及一种扩充类别式数据快速标注方法。
背景技术
近年来,人工智能技术受到的关注度持续提升,大量的社会资本和智力、数据资源的汇集驱动人工智能技术研究不断发展。人工智能的经典技术为机器学习技术,而深度学习技术的出现使得机器学习能够实现众多应用,拓展了人工智能的领域范围,而其基础在于对大量数据添加标注信息。快速、准确地完成数据标注是实现课题、项目的关键一步。
目前,常见的数据标注方法为借助数据标注工具进行手动标注,耗时费力,效率较低。
中国专利文献CN109299296A公开了一种交互式图像文本标注方法与系统。具体公开了以下内容:本发明提供了一种交互式图像文本标注方法,包括以下步骤:服务器端接收由用户标注的图像和/或文本数据样本,并基于样本在服务器端训练模型;通过经训练的模型对新上传到服务器端的数据进行预标注;将预标注的数据发送到客户端以进行修正;以及所述服务器端接收修正后的数据以迭代更新训练模型。所述方法能够对原始数据集进行标注,较完全手动标注效率有所提高,但仍存在依赖标注工具、标注成本高等局限性。
发明内容
针对现有技术的不足,本发明提供了一种扩充类别式数据快速标注方法。
本发明针对带有统一标注A的公开数据集,或者利用基于公网大数据训练的公开模型,推理得到的带有统一标注A的私人数据集,满足快速、准确地标注的需求,更好地服务于实际应用。
本发明的技术方案为:
一种扩充类别式数据快速标注方法,包括以下步骤:
(1)获取带有统一标注A的初始数据,标注A是指的某一大类;比如初始标注均为Vehicle车辆;
(2)根据需求,结合已有数据集,将A进一步分为多个子类,大类包含所述多个子类;比如,根据需要将上文中的标注Vehicle进一步具体地分为car、bus等子类,由此,子类可理解为一种包含关系;
(3)选取初始数据集的一部分作为样本,通过人工修改标注文件,标注文件是指通过标注工具(如LabImg)标注数据后生成的文件(如xml文件),该文件中包含标注信息;这里可以直接得到初始的标注文件,快捷地将标注从A重命名为多个子类,得到标注样本;只需在已有数据的基础上进行微调,无需从头开始分类标注,不再依赖于数据标注工具。
(4)基于标注样本,利用神经网络训练模型,将所得模型对初始数据集中剩余的数据进行预标注,得到预标注数据;
进一步优选的,步骤(4)中,利用人工神经网络(Artificial Neural Network,即ANN),基于人工神经网络的特性,从信息处理角度对人脑神经元网络进行抽象,建立人工神经网络模型,按不同的连接方式组成不同的网络,此样例中,所用人工神经网络为可以实现目标检测功能的网络,并基于此训练人工神经网络模型,将所得人工神经网络模型对初始数据集中剩余的数据进行预标注,得到预标注数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东领能电子科技有限公司;山东大学;太原理工大学,未经山东领能电子科技有限公司;山东大学;太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910626205.3/2.html,转载请声明来源钻瓜专利网。