[发明专利]一种数据标注方法、系统、电子设备及存储介质在审
申请号: | 202211103840.1 | 申请日: | 2022-09-09 |
公开(公告)号: | CN116304659A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 张晓 | 申请(专利权)人: | 重庆长安汽车股份有限公司 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/21;G06F18/25;G06N3/04;G06N3/08 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 唐勇 |
地址: | 400023 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 标注 方法 系统 电子设备 存储 介质 | ||
本申请提供一种数据标注方法、系统、电子设备及存储介质,首先获取原始数据,并对原始数据进行人工标注,得到第一标注数据集;再将第一标注数据集输入至预设神经网络模型中进行训练,并在训练参数收敛后,输出完成训练的神经网络模型;最后利用完成训练的神经网络模型对原始数据进行自动标注,得到第二标注数据集。本申请可以实现训练模型反哺自动标注,通过融合矩阵可以将针对性不同的识别训练模型集成为一个多类型的自动标注模型,实现多种类型一次性标注的目的。本申请通过小批量数据即可启动模型训练,节约了时间成本和资源成本;本申请还可实现训练模型到自动标注模型的正向循环迭代,训练模型迭代了就能同步更新自动标注模型。
技术领域
本申请涉及人工智能及自动驾驶技术领域,具体涉及一种数据标注方法、系统、电子设备及存储介质。
背景技术
自动驾驶技术研发过程需要的数据量巨大,且随着自动驾驶级别的上升,所需要的数据量级成几何倍数增加。自动驾驶算法开发需要进行多次增量式算法训练来提升车端算法的性能。车端算法训练需要使用涉及语音、NLP(Natural Language Processing,自然语言处理,简称NLP)文本、视频、图片以及雷达点云数据。这些原始数据采集和清洗完成后需要进行完整的数据标注,自动驾驶算法研发过程正是大量使用这些已标注的高质量数据来投喂算法,才能获得好的训练效果。
传统的自动驾驶数据自动标注方法主要是通过自建标注模型来实现标注的自动化,这种方式对算法模型要求较高,一般企业难以投入大量精力去研究此类算法,而且自动标注模型也需要通过大量的数据训练学习以获得更优的标注效果,无形中又增大了训练的工作量。对于自动驾驶研发企业而言,大量的训练资源会优先投入到驾驶感知和规控算法训练,很难腾出专门的空间来训练自动标注算法。其次,自动驾驶算法需要的标注数据类型较多,要实现过程的自动标注就需要准备不同类型的数据投喂自动标注算法,使训练数据覆盖足够全,否则就会出现识别率低,人工大量返工修复等情况。因此,自动驾驶研发企业专门花精力研究自动标注算法短期内难以达到预期,需要长期的算法积累和大量的数据集验证,否则通过模型作出的自动标注结果无法起到提升标注效率的目的。
所以,如何兼顾数据安全和标注效率,即数据能够在相对安全可控的环境中快速标注以满足算法迭代的数据量级需求,已成为自动驾驶算法研发企业的核心诉求。
发明内容
鉴于以上所述现有技术的缺点,本申请提供一种数据标注方法、系统、电子设备及存储介质,以解决上述技术问题。
本申请提供一种数据标注方法,所述方法包括以下步骤:
获取原始数据,并对所述原始数据进行人工标注,得到第一标注数据集;
将所述第一标注数据集输入至预设神经网络模型中进行训练,并在训练参数收敛后,输出完成训练的神经网络模型;
利用完成训练的神经网络模型对所述原始数据进行自动标注,得到第二标注数据集。
于本申请的一实施例中,利用完成训练的神经网络模型对所述原始数据进行自动标注的过程包括:
将完成训练后的神经网络模型记为第一数据标注模型;
获取所述第一数据标注模型的向量,并将所述第一数据标注模型的向量与预设融合矩阵进行融合,得到第二数据标注模型;
利用所述第二数据标注模型对所述原始数据进行自动标注,得到所述第二标注数据集。
于本申请的一实施例中,在得到第二数据标注模型后,所述方法还包括:
利用所述第一标注数据集对所述第二数据标注模型进行迭代训练,并在训练参数收敛后,输出数据标注迭代模型;
利用所述数据标注迭代模型对所述原始数据进行自动标注,得到所述第二标注数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆长安汽车股份有限公司,未经重庆长安汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211103840.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置