[发明专利]样本数据的处理方法、装置、服务器和存储介质在审
申请号: | 201910322574.3 | 申请日: | 2019-04-22 |
公开(公告)号: | CN110263803A | 公开(公告)日: | 2019-09-20 |
发明(设计)人: | 郭亚;赵智源;周书恒;祝慧佳 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 英属开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标注信息 目标样本 样本数据 标注 多个目标 存储介质 目标数据 服务器 筛选 一致性程度 不确定度 数据误差 数据携带 质量符合 预设 量化 携带 | ||
本说明书提供了一种样本数据的处理方法、装置、服务器和存储介质。其中,方法包括:获取多个目标样本数据,目标样本数据携带有标注信息;根据目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;根据目标样本数据的标注信息熵,从多个目标样本数据中确定出标注质量符合预设的质量要求的第一目标数据。在本说明书实施例中,由于通过先确定出能够反映目标样本数据的标注信息的不确定度的标注信息熵来量化不同标注源针对同一样本数据标注时的一致性程度;进而可以根据上述标注信息熵筛选出标注质量相对校高的目标样本数据作为第一目标数据来使用,从而能够高效、准确地从多个目标样本数据中筛选出标注质量较高的数据,减少数据误差。
技术领域
本说明书属于互联网技术领域,尤其涉及一种样本数据的处理方法、装置、服务器和存储介质。
背景技术
在利用样本数据进行模型训练时,通常需要先对所使用的样本数据进行标注。
例如,通常会由负责标注的打标员根据事先确定好的标注规则对每个样本数据的属性情况进行分析判断,再根据判断结果给每个样本数据设置对应的标注信息以指示样本数据的属性特征(例如样本数据所对应的类型或级别等),完成对样本数据的标注。进而后续可以根据上述标注后的样本数据,进行具体的模型训练。
在根据标注规则对样本数据进行标注时,打标员可能受到个人的主观影响,导致单个打标员在标注时容易出现误差,使得其由单个打标员设置的标注信息往往不够准确,标注质量相对较低。因此,通常会调用多个不同的打标员同时对同一批样本数据进行标注。但是不同的打标员对于标注规则以及样本数据的理解和把握程度往往会存在差异,导致同一个样本数据被不同的打标员标注后,可能会存在多个不同的标注信息,使得在后续使用上述标注后的样本数据时会出现混乱或误差,影响样本数据的标注质量。
因此,亟需一种能够高效、准确地从被多个打标员标注过的样本数据中筛选出标注质量较高的样本数据的处理方法。
发明内容
本说明书目的在于提供一种样本数据的处理方法、装置、服务器和存储介质,以高效、准确地从多个标注过的目标样本数据中筛选出标注质量较高的目标样本数据。
本说明书提供的一种样本数据的处理方法、装置、服务器和存储介质是这样实现的:
一种样本数据的处理方法,包括:获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。
一种样本数据的处理装置,包括:获取模块,用于获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;第一确定模块,用于根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;第二确定模块,用于根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。
一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现获取多个目标样本数据,其中,所述目标样本数据携带有标注信息;根据所述目标样本数据所携带的标注信息,确定目标样本数据的标注信息熵;根据所述目标样本数据的标注信息熵,从所述多个目标样本数据中确定出标注质量符合预设的质量要求的目标样本数据作为第一目标数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910322574.3/2.html,转载请声明来源钻瓜专利网。