[发明专利]一种目标集合类别标签的确定方法和装置在审
申请号: | 202011203745.X | 申请日: | 2020-11-02 |
公开(公告)号: | CN112329838A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 徐成国;杨康;周星杰;王硕 | 申请(专利权)人: | 上海明略人工智能(集团)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 曾军;刘晓燕 |
地址: | 200030 上海市徐汇区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 目标 集合 类别 标签 确定 方法 装置 | ||
本申请涉及一种目标集合类别标签的确定方法和装置,其中,该方法包括:按照目标集合数N对多个目标数据进行聚类,得到N个第一集合,其中,N为大于2的正整数;根据第二集合的集合类别标签确定第一集合中目标数据的数据类别标签,其中,第二集合包括多个样本数据,样本数据为带有样本类别标签的数据;根据第一集合中目标数据的数据类别标签确定第一集合的目标集合类别标签。本申请解决了聚类算法确定聚类类别结果准确率较低的技术问题。
技术领域
本申请涉及计算机领域,尤其涉及一种目标集合类别标签的确定方法和装置。
背景技术
随着互联网的发展,聚类算法大量应用于无标签数据的聚类区分中,其无监督且无需大量人工处理,使用便捷而且实现简单,但是在实际工程化应用中单纯的聚类算法应用场景有限,通常是作为一些工程化应用的辅助算法,用于最后的类别区分,当前的聚类算法只能将数据聚为各个集合,而无法确定聚类出的各个集合的集合类别标签。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供了一种目标集合类别标签的确定方法和装置,以至少解决相关技术中聚类算法确定聚类类别结果准确率较低的技术问题。
根据本申请实施例的一个方面,提供了一种目标集合类别标签的确定方法,包括:按照目标集合数N对多个目标数据进行聚类,得到N个第一集合,其中,N为大于2的正整数;根据第二集合的集合类别标签确定所述第一集合中所述目标数据的数据类别标签,其中,所述第二集合包括多个样本数据,所述样本数据为带有样本类别标签的数据;根据所述第一集合中所述目标数据的所述数据类别标签确定所述第一集合的目标集合类别标签。
可选地,根据所述第一集合中所述目标数据的所述数据类别标签确定所述第一集合的所述目标集合类别标签包括:根据所述数据类别标签和所述第一集合建立混淆矩阵,其中,所述混淆矩阵的行中的数据表示各个所述第一集合的标识、列中的数据表示各个所述第一集合中的各个所述目标数据的所述数据类别标签,所述混淆矩阵的数据区域中的各个数据表示所述第一集合中的每个所述目标数据的所述数据类别标签所占的比例;在所述混淆矩阵的所述数据区域的多列中确定出满足目标条件的多个目标数据,其中,所述目标条件是基于各个所述第二集合中包含的所述样本数据的比值确定的,任意两个所述目标数据所对应的行均不同;将每个所述目标数据所对应的行中的所述数据类别标签确定为对应的列中的所述第一集合的所述目标集合类别标签。
可选地,在所述混淆矩阵的所述数据区域的多列中确定出满足所述目标条件的多个所述目标数据包括:确定各个所述第二集合所包含的所述样本数据的第一比例值;在所述混淆矩阵的所述数据区域的多列中确定出满足第二比例值的多个所述目标数据,其中,所述第二比例值与所述第一比例值的差值小于设定阈值。
可选地,根据第二集合的所述集合类别标签确定所述第一集合中所述目标数据的所述数据类别标签包括:确定每个所述第二集合的所述集合类别标签;计算每个所述目标数据与多个所述第二集合的集合类别标签之间的相似度,并确定所有相似度中的最大相似度值;将与最大相似度值对应的所述集合类别标签确定为所述目标数据的所述数据类别标签。
可选地,确定每个所述第二集合的所述集合类别标签包括:按照目标集合数N对多个所述样本数据进行特征分析,得到N个所述第二集合,其中N为大于2的正整数;根据所述第二集合中的各个所述样本数据的所述样本类别标签确定所述第二集合的所述集合类别标签。
可选地,计算每个所述目标数据与多个所述第二集合的集合类别标签之间的相似度包括:计算每个所述目标数据与各个所述集合类别标签之间的欧式距离;基于所述欧式距离确定各个所述目标数据与各个所述集合类别标签之间的相似度,其中,所述欧式距离越小则基于所述欧式距离确定的相似度越大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011203745.X/2.html,转载请声明来源钻瓜专利网。