[发明专利]一种数据处理方法、装置及电子设备有效
申请号: | 201910251585.7 | 申请日: | 2019-03-29 |
公开(公告)号: | CN109993315B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 何向宇 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 电子设备 | ||
本申请公开了一种数据处理方法、装置及电子设备,方法包括:获得第一类型的具有预置标注结果的任务数据;将第一类型的任务数据及第二类型的任务数据组成任务集,由目标用户对任务集中的任务数据进行标注;获得包括至少一条标注数据的标记数据集;若标记数据集中的第一标注数据满足第一条件,则将其划分为第一类型的任务数据,并利用第一标注数据中的用户标注信息生成第一标注数据的预置标注结果;其中,第一条件包括:第一标注数据由第二类型的任务数据标记生成;且,第一目标用户与第二目标用户满足第二条件,第一目标用户为第一标注数据对应的目标用户,第二目标用户为第一类型的任务数据所生成的第二标注数据对应的目标用户。
技术领域
本申请涉及机器学习技术领域,尤其涉及一种数据处理方法、装置及电子设备。
背景技术
在人工智能中,需要收集众包模式下各个执行标注处理的任务用户所输出的标注数据,来提供给后续进行机器学习等应用。其中,标注数据是指被标注有选项答案或者判断答案的数据,如答案为选项A的选择题数据等等。
与此同时,通常需要对任务用户所输出的标注数据进行校验审核,以判断出该标注数据是否标注正确,例如,选择题数据的标注结果是否为正确答案的“选项A”,或者,判断题数据的标注结果是否为正确答案的“错误”,等等。
但是现有的人工校验审核的方式通常存在效率较低的问题。
发明内容
有鉴于此,本申请提供一种数据处理方法,包括:
获得第一类型的任务数据,所述第一类型的任务数据具有预置标注结果;
将所述第一类型的任务数据及第二类型的任务数据组成任务集,由至少一个目标用户对所述任务集中的任务数据进行标注;
获得标记数据集,其中,所述标记数据集中包括至少一条标注数据,所述标注数据为所述目标用户对任务集中的任务数据进行标注后的数据;
若所述标记数据集中的所述第一标注数据满足第一条件,则将其划分为所述第一类型的任务数据,并利用所述第一标注数据中的用户标注信息生成所述第一标注数据的预置标注结果;
其中,所述第一条件包括:
所述第一标注数据由所述第二类型的任务数据标记生成;
且,第一目标用户与第二目标用户满足第二条件,所述第一目标用户为所述第一标注数据对应的目标用户,所述第二目标用户为所述第一类型的任务数据所生成的第二标注数据对应的目标用户。
上述方法,优选的,所述第二条件包括:
所述第一目标用户为所述第二目标用户中标注准确率高于第一阈值的目标用户。
上述方法,优选的,所述第二条件包括:
所述第一目标用户为:所述第二目标用户中具有相同用户标注信息的第一标注数据所对应的目标用户,且所述第一目标用户在所述第二目标用户的占比值高于第二阈值。
上述方法,优选的,所述第二目标用户的标注准确率通过以下方式获得:
将所述第二标注数据中的用户标注信息与对应的预置标注结果进行比对,得到比对结果,所述比对结果表明所述第二目标用户是否标注准确;
基于所述比对结果,生成所述第二目标用户的标注准确率。
上述方法,优选的,基于所述比对结果,生成所述第二目标用户的标注准确率,包括:
基于所述比对结果,获得所述第二目标用户在所述第一类型的任务数据中标注准确的数量值;
基于所述数量值与所述第一类型的任务数据的数量值,生成所述第二目标用户的标注准确率。
上述方法,优选的,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910251585.7/2.html,转载请声明来源钻瓜专利网。