[发明专利]样本数据的处理方法、装置、服务器和存储介质在审
申请号: | 201910322574.3 | 申请日: | 2019-04-22 |
公开(公告)号: | CN110263803A | 公开(公告)日: | 2019-09-20 |
发明(设计)人: | 郭亚;赵智源;周书恒;祝慧佳 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 英属开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标注信息 目标样本 样本数据 标注 多个目标 存储介质 目标数据 服务器 筛选 一致性程度 不确定度 数据误差 数据携带 质量符合 预设 量化 携带 | ||
1.一种样本数据的处理方法,包括:
获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;
根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;
根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。
2.根据权利要求1所述的方法,在根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据后,所述方法还包括:
利用所述第一目标数据,进行风险识别模型的训练。
3.根据权利要求1所述的方法,获取多个目标样本数据,包括:
获取多个标注后的样本数据;
确定标注后的样本数据的标注源的数量;
从所述多个标注后的样本数据中筛选出标注源的数量大于等于2的标注后的样本数据作为所述目标样本数据。
4.根据权利要求3所述的方法,从所述多个标注后的样本数据中筛选出标注源的数量大于等于2的标注后的样本数据作为所述目标样本数据后,所述方法还包括:
从所述多个标注后的样本数据中筛选出标注源的数量等于1的标注后的样本数据作为第二目标数据。
5.根据权利要求3所述的方法,根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵,包括:
统计所述目标样本数据所携带的标注信息所对应的标注源的数量;
根据所述目标样本数据所携带的标注信息所对应的标注源的数量,按照预设规则计算出所述目标样本数据的标注信息熵。
6.根据权利要求1所述的方法,根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据,包括:
将所述多个目标样本数据的标注信息熵分别与预设的信息熵阈值进行数值比较,得到比较结果;
根据所述比较结果,将标注信息熵小于等于所述预设的信息熵阈值的目标样本数据确定为所述第一目标数据。
7.根据权利要求6所述的方法,在将所述多个目标样本数据的标注信息熵分别与预设的信息熵阈值进行数值比较,得到比较结果后,所述方法还包括:
根据所述比较结果,将标注信息熵大于所述预设的信息熵阈值的目标样本数据确定为第二目标数据;
重新标注所述第二目标数据所对应的样本数据。
8.根据权利要求7所述的方法,重新标注所述第二目标数据所对应的样本数据,包括:
调用多个预设标注源按照预设的标注规则分别对所述第二目标数据所对应的样本数据进行标注,得到重新标注后的样本数据;
检测所述重新标注后的样本数据的标注质量是否符合预设的质量要求;
在确定所述重新标注后的样本数据的标注质量符合预设的质量要求的情况下,将所述重新标注后的样本数据确定为第一目标数据。
9.根据权利要求8所述的方法,在检测所述重新标注后的样本数据的标注质量是否符合预设的质量要求后,所述方法还包括:
在确定所述重新标注后的样本数据的标注质量不符合预设的质量要求的情况下,调用多个预设标注源按照预设的标注规则对所述第二目标数据所对应的样本数据进行多轮标注,得到多轮标注后的样本数据作为第三目标数据;
确定所述第三目标数据的标注信息熵;
检测所述第三目标数据的标注信息熵的变化趋势是否符合预设的变化要求;
在确定所述第三目标数据的标注信息熵的变化趋势不符合预设的变化要求的情况下,对以下至少之一进行检查和调整:标注源、预设的标注规则和第三目标数据所对应的样本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910322574.3/1.html,转载请声明来源钻瓜专利网。