[发明专利]簇间相似度确定方法、装置、设备及存储介质在审
申请号: | 201910808482.6 | 申请日: | 2019-08-29 |
公开(公告)号: | CN110633737A | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | 熊凯 | 申请(专利权)人: | 广州视源电子科技股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 11638 北京权智天下知识产权代理事务所(普通合伙) | 代理人: | 王新爱 |
地址: | 510530 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 簇间 相似度 样本集 数据处理领域 相似度确定 存储介质 正整数 申请 统计 | ||
1.一种簇间相似度确定方法,其特征在于,包括:
获取第一簇内每个第一样本在样本集中的第一S近邻样本集以及第二簇内每个第二样本在所述样本集中的第二S近邻样本集,所述第一簇和所述第二簇包含在所述样本集中,所述S为正整数;
统计全部所述第一样本在所述第二S近邻样本集中出现的第一频次和以及全部所述第二样本在所述第一S近邻样本集中出现的第二频次和;
基于所述第一频次和以及所述第二频次和确定所述第一簇和第二簇的第一簇间相似度。
2.根据权利要求1所述的簇间相似度确定方法,其特征在于,所述样本集中每个样本对应一个索引值;
所述簇间相似度确定方法还包括:
统计全部所述第一S近邻样本集对应的第一索引值集合以及全部所述第二S近邻样本集对应的第二索引值集合;
基于所述第一索引值集合以及所述第二索引值集合确定所述第一簇和第二簇的第二簇间相似度。
3.根据权利要求2所述的簇间相似度确定方法,其特征在于,还包括:
根据所述第一簇间相似度和所述第二簇间相似度确定所述第一簇和第二簇的第三簇间相似度。
4.根据权利要求1所述的簇间相似度确定方法,其特征在于,所述基于所述第一频次和以及所述第二频次和确定所述第一簇和第二簇的第一簇间相似度包括:
获取对应于第一簇和第二簇的标准化因子;
计算所述第一频次和与所述第二频次和的频次和值;
将所述频次和值与所述标准化因子相除,以得到所述第一簇和第二簇的第一簇间相似度。
5.根据权利要求4所述的簇间相似度确定方法,其特征在于,所述标准化因子的计算方式为:N=m*min(n,S)+n*min(m,S),其中,N为标准化因子,n为第一簇的样本数量,m为第二簇的样本数量。
6.根据权利要求2所述的簇间相似度确定方法,其特征在于,所述基于所述第一索引值集合以及所述第二索引值集合确定所述第一簇和第二簇的第二簇间相似度包括:
分别统计所述第一索引值集合与所述第二索引值集合的交集以及并集;
确定所述交集的第一索引总数量以及所述并集的第二索引总数量;
将所述第一索引总数量和第二索引总数量相除,以得到所述第一簇和所述第二簇的第二簇间相似度。
7.根据权利要求3所述的簇间相似度确定方法,其特征在于,所述根据所述第一簇间相似度和所述第二簇间相似度确定所述第一簇和第二簇的第三簇间相似度包括:
获取设定参数;
根据所述设定参数、所述第一簇间相似度和所述第二簇间相似度确定所述第一簇和第二簇的第三簇间相似度。
8.根据权利要求7所述的簇间相似度确定方法,其特征在于,所述第三簇间相似度的计算方式为:score=λ*score1+(1-λ)*score2,其中,score为第三簇间相似度,score1为第一簇间相似度,score2为第二簇间相似度,λ为设定参数。
9.根据权利要求1所述的簇间相似度确定方法,其特征在于,所述统计全部所述第一样本在所述第二S近邻样本集中出现的第一频次和包括:
分别统计每个所述第一样本出现在全部第二S近邻样本集中的第一频次;
将全部所述第一频次相加,以得到第一频次和。
10.根据权利要求2所述的簇间相似度确定方法,其特征在于,所述统计全部所述第一S近邻样本集对应的第一索引值集合包括:
分别获取每个所述第一S近邻样本集内样本的索引值;
对全部所述索引值进行去重处理,并将保留的索引值组成第一索引值集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州视源电子科技股份有限公司,未经广州视源电子科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910808482.6/1.html,转载请声明来源钻瓜专利网。