[发明专利]一种数据处理方法、装置及网络设备有效
申请号: | 201810813137.7 | 申请日: | 2018-07-23 |
公开(公告)号: | CN109086814B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 李俊岑 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 贾允;肖丁 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 网络设备 | ||
1.一种数据处理方法,其特征在于,所述方法包括:
获取第一标注数据集,所述第一标注数据集为按照预设标注规则对待标注数据进行标注得到的标注数据;
遍历所述第一标注数据集中的标注数据,在遍历所述第一标注数据集中的标注数据时,利用标注预测模型确定冲突标注数据;
获取第二标注数据集,所述第二标注数据集是将遍历过程中得到的冲突标注数据按照所述预设标注规则进行重新标注得到的标注数据;
根据所述第一标注数据集和第二标注数据集,确定第三标注数据集;
在所述第三标注数据集的评价结果不满足预设评价条件时,将所述第三标注数据集作为所述第一标注数据集,执行所述遍历的步骤直至所述第三标注数据集的评价结果满足所述预设评价条件;
所述遍历所述第一标注数据集中的标注数据,在遍历所述第一标注数据集中的标注数据时,利用标注预测模型确定冲突标注数据包括:
从所述第一标注数据集中选取至少一个标注数据作为待筛选标注数据,并将所述第一标注数据集去除所述待筛选标注数据后的标注数据作为训练标注数据;
对所述训练标注数据进行机器学习,生成标注预测模型;
将所述待筛选标注数据对应的待标注数据输入所述标注预测模型进行标注预测,得到所述待标注数据所对应的预测标注数据;
根据所述待筛选标注数据和预测标注数据,确定冲突标注数据;
将所述冲突标注数据从所述第一标注数据集中剔除。
2.根据权利要求1所述的数据处理方法,其特征在于,在遍历所述第一标注数据集中的标注数据之前,所述方法还包括:
获取所述第一标注数据集中标注数据的数据特征;
将所述第一标注数据集拆分为N份标注数据子集,所述标注数据子集所包含的标注数据的数据特征满足预设的分布规则,N≥2;
所述从所述第一标注数据集中选取至少一个标注数据作为待筛选标注数据,并将所述第一标注数据集去除所述待筛选标注数据后的标注数据作为训练标注数据包括:
从所述N份标注数据子集中选取K份标注数据子集作为待筛选标注数据,并将(N-K)份所述标注数据子集作为训练标注数据,1≤K≤N/2。
3.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述待筛选标注数据和预测标注数据,确定冲突标注数据包括:
在所述待筛选标注数据与所述预测标注数据不一致时,将所述待筛选标注数据确定为冲突标注数据。
4.根据权利要求1至3任一所述的数据处理方法,其特征在于,所述根据所述第一标注数据集和第二标注数据集,确定第三标注数据集包括:
将所述第一标注数据集中的冲突标注数据以所述第二标注数据集中的标注数据替代,得到第三标注数据集。
5.根据权利要求4所述的数据处理方法,其特征在于,在所述第三标注数据集的评价结果不满足预设评价条件时,将所述第三标注数据集作为所述第一标注数据集之前,所述方法还包括:
从所述第三标注数据集中抽取第一数量的标注数据作为样本标注数据;
统计所述样本标注数据中满足所述预设标注规则的标注数据的第二数量;
计算所述第二数量与第一数量的比值,将所述比值作为所述第三标注数据集的评价结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810813137.7/1.html,转载请声明来源钻瓜专利网。