[发明专利]分类标注方法、装置、可读存储介质及设备在审
申请号: | 201910717983.3 | 申请日: | 2019-08-05 |
公开(公告)号: | CN110413856A | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 顾立瑞;胡雨成 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/906 | 分类号: | G06F16/906 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本数据 标注 子集 分类 聚类 可读存储介质 聚类类别 目标聚类 准确率 申请 样本 | ||
本申请实施例提供一种分类标注方法、装置、可读存储介质及设备,对无标注的第一样本数据集中的样本数据进行聚类,得到多个聚类类别的第一样本数据子集;对已知类别的第二样本数据集按照上述多个聚类类别进行分类,以确定第二样本数据集中,属于各个聚类类别的第二样本数据子集;将属于目标聚类类别的第一样本数据子集标注为所述已知类别,目标聚类类别为:样本数量最多的第二样本数据子集所属的聚类类别。基于本申请的上述分类标注方法,提高了分类标注的准确率和召回率。
技术领域
本申请涉及信息处理技术领域,具体涉及一种分类标注方法、装置、可读存储介质及设备。
背景技术
随着人工智能和大数据技术的发展,对大数据进行数据挖掘能够为用户提供更加丰富的服务。由于大数据种类繁多,要进行数据挖掘,需要先获取特定类别的数据,然后才能进行数据挖掘。要获取特定类别的数据,这就需要对海量数据进行类别标注,即从海量数据中筛选出属于上述特定类别的数据。
目前,较常用的一种类别标注方法是基于PU_Learning算法的类别标注方法,该方法是将已经标注为某类别的少量样本作为正样本,使用PU_Learning算法从未标注的大量样本中,获取相同数量的负样本,利用正样本和负样本训练二分类模型(如SVM模型),然后利用二分类模型对海量数据进行分类标注。然而,发明人研究发现,基于PU_Learning算法的类别标注方法,分类标注的准确率(即正确分类标注的样本的数量占分类标注的样本总量的比值)和召回率(即正确分类标注的样本的数量占应该正确分类标注的样本数量的比值)都较低。
发明内容
有鉴于此,本申请实施例提供一种分类标注方法、装置、可读存储介质及设备,以提高分类标注的准确率和召回率。
为实现上述目的,本申请实施例提供如下技术方案:
第一方面,提供一种分类标注方法,包括:
对无标注的第一样本数据集中的样本数据进行聚类,得到多个聚类类别的第一样本数据子集;
对已知类别的第二样本数据集按照所述多个聚类类别进行分类,以确定所述第二样本数据集中,属于各个聚类类别的第二样本数据子集;
将属于目标聚类类别的第一样本数据子集标注为所述已知类别,所述目标聚类类别为:样本数量最多的第二样本数据子集所属的聚类类别。
第二方面,提供一种分类标注方法,包括:
对无标注的第三样本数据集按照预先得到的多个聚类类别进行分类,以确定所述第三样本数据集中,属于各个聚类类别的第三样本数据子集;所述多个聚类类别通过对无标注的第一样本数据集中的样本数据进行聚类得到;
将属于目标聚类类别的第三样本数据子集标注为已知类别,所述目标聚类类别为:通过对所述已知类别的第二样本数据集按照所述多个聚类类别进行分类确定的第二样本数据子集中,样本数量最多的第二样本数据子集所属的聚类类别。
第三方面,提供一种分类标注装置,包括:
聚类模块,用于对无标注的第一样本数据集中的样本数据进行聚类,得到多个聚类类别的第一样本数据子集;
第一分类模块,用于对已知类别的第二样本数据集按照所述聚类类别进行分类,以确定所述第二样本数据集中,属于各个聚类类别的第二样本数据子集;
第一标注模块,用于将属于目标聚类类别的第一样本数据子集标注为所述已知类别,所述目标聚类类别为:样本数量最多的第二样本数据子集所属的聚类类别。
第四方面,提供一种分类标注装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910717983.3/2.html,转载请声明来源钻瓜专利网。