[发明专利]一种数据处理方法、装置及网络设备有效

申请号：	201810813137.7	申请日：	2018-07-23
公开（公告）号：	CN109086814B	公开（公告）日：	2021-05-14
发明（设计）人：	李俊岑	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N20/00
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	贾允;肖丁
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据处理方法装置网络设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种数据处理方法、装置及网络设备，所述数据处理方法包括：获取第一标注数据集；遍历第一标注数据集中的标注数据，在遍历第一标注数据集中的标注数据时，利用标注预测模型确定冲突标注数据；获取第二标注数据集，该第二标注数据集是将遍历过程中得到的冲突标注数据按照预设标注规则进行重新标注得到的标注数据；根据第一标注数据集和第二标注数据集，确定第三标注数据集；在第三标注数据集的评价结果不满足预设评价条件时，将第三标注数据集作为第一标注数据集，执行所述遍历的步骤直至第三标注数据集的评价结果满足预设评价条件。本发明提高了标注数据的质量，且节约了人力和时间成本。

技术领域

本发明涉及计算机技术领域，特别涉及一种数据处理方法、装置及网络设备。

背景技术

随着计算机技术的发展，机器学习技术被应用到越来越多的领域。机器学习通常需要大量的标注数据来训练学习模型，因此，数据的标注质量是影响学习模型精准性的重要因素。

为了提升数据的标注质量，比较常见的方式是让多个标注者来标注同一份数据，然后取大多数标注者标注的结果作为最终的标注结果；或者，对于每次的标注结果进行抽样评估，如果抽样评估的准确率小于预设阈值，则让标注者重新标注这份数据，直到抽样评估的准确率达到预设阈值。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

相关技术中，在提升数据的标注质量，尤其是比较复杂的数据的标注时，主要依靠的还是人工的参与，需要耗费较大的人力资源以及时间，而且标注数据的准确率也还有待进一步提高。

因此，需要提供更可靠或更有效的方案，以便在保证标注数据质量的情况下，有效的减少时间以及人力资源的消耗。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种数据处理方法、装置及网络设备。所述技术方案如下：

一方面，提供了一种数据处理方法，所述方法包括：

获取第一标注数据集，所述第一标注数据集为按照预设标注规则对待标注数据进行标注得到的标注数据；