[发明专利]数据处理方法及装置、处理器、电子设备及存储介质在审
申请号: | 202010186169.6 | 申请日: | 2020-03-17 |
公开(公告)号: | CN111428767A | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 黄厚钧;何悦;李诚;王贵杰;王子彬 | 申请(专利权)人: | 深圳市商汤科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;董文俊 |
地址: | 518054 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 处理器 电子设备 存储 介质 | ||
本申请公开了一种数据处理方法及装置、处理器、电子设备及存储介质。该方法包括:获取第一簇和第二簇,所述第一簇中数据的类别相同,所述第二簇中数据的类别相同,且所述第一簇中数据的类别与所述第二簇中数据的类别不同;确定所述第一簇中数据的第一数量和所述第二簇中数据的第二数量之间的差异,得到第一差异;依据所述第一差异合并所述第一簇和所述第二簇。
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法及装置、处理器、电子设备及存储介质。
背景技术
聚类分析是数据挖掘和机器学习等领域的关键技术之一。聚类分析通过将数据集中的相似数据汇聚至同一类簇,使不同类簇中的数据之间具有尽量小的相似度。但通过传统聚类方法得到的聚类结果的准确度低。
发明内容
本申请提供一种数据处理方法及装置、处理器、电子设备及存储介质。
第一方面,提供了一种数据处理方法,所述方法包括:
获取第一簇和第二簇,所述第一簇中数据的类别相同,所述第二簇中数据的类别相同,且所述第一簇中数据的类别与所述第二簇中数据的类别不同;
确定所述第一簇中数据的第一数量和所述第二簇中数据的第二数量之间的差异,得到第一差异;
依据所述第一差异合并所述第一簇和所述第二簇。
在该方面中,通过确定第一簇中数据的数量与第二簇中数据的数量之间的差异,得到第一差异。依据第一差异合并第一簇和第二簇,可提高合并准确度。
结合本申请任一实施方式,所述确定所述第一簇中数据的第一数量和所述第二簇中数据的第二数量之间的差异,得到第一差异,包括:
确定所述第一簇中包含的数据的数量,得到第一数量;
确定所述第二簇中包含的数据的数量,得到第二数量;
确定所述第一数量与所述第二数量的和,得到第三数量;
依据所述第一数量、所述第二数量以及所述第三数量,得到所述第一差异。
在该种可能实现的方式中,依据第一数量、第二数量以及第三数量,得到第一差异,可减小不同待合并簇对中存在的数量级差距对第一差异的影响,进而可提高合并准确度。
结合本申请任一实施方式,所述依据所述第一数量、所述第二数量以及所述第三数量,得到所述第一差异,包括:
确定所述第一数量与所述第二数量的乘积,得到第四数量;
确定第一值与所述第三数量的平方的乘积,得到第五数量;
确定所述第四数量与所述第五数量的商,得到所述第一差异。
在该种可能实现的方式中,确定第四数量与第五数量的商,得到第一差异,可将第一差异归一化至0至1之间,从而减小不同待合并簇对中存在的数量级差距对第一差异的影响,进而可提高合并准确度。
结合本申请任一实施方式,在所述依据所述第一差异合并所述第一簇和所述第二簇之前,所述方法还包括:
确定所述第一簇与所述第二簇之间的相似度,得到第一相似度;
在所述第一相似度大于或等于第一阈值的情况下,执行所述依据所述第一差异合并所述第一簇和所述第二簇的步骤。
在该实施方式中,第一相似度大于或等于第一阈值表征第一簇中的数据与第二簇中的数据属于同一类别的概率高,从而在第一相似度大于或等于第一阈值的情况下,执行依据第一差异合并第一簇和第二簇的步骤,可提高合并准确度。
结合本申请任一实施方式,所述确定所述第一簇与所述第二簇之间的相似度,得到第一相似度,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市商汤科技有限公司,未经深圳市商汤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010186169.6/2.html,转载请声明来源钻瓜专利网。