[发明专利]用于计算多类别数据集相似性矩阵的相对相似性计算方法在审
申请号: | 201810651110.2 | 申请日: | 2018-06-22 |
公开(公告)号: | CN108920424A | 公开(公告)日: | 2018-11-30 |
发明(设计)人: | 陈霸东;席政凯;吴昊;杨静 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/16 | 分类号: | G06F17/16 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 徐文权 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似性矩阵 类别数据 类别样本 坐标原点 相似性分析 相似性计算 依次选择 鲁棒性 脑数据 应用 分析 改进 | ||
本发明公开了一种计算多类别数据集不同类别间相似性矩阵的改进方法,当计算多类别样本集的相似性矩阵(不同类别两两之间的相似性以及每个类别内部元素的相似性)时,依次选择每个类别样本集的中心作为坐标原点计算相似性矩阵,最后将得到的多个相似性矩阵平均值作为最终的相似性矩阵。本发明克服了传统方法只选取一个坐标原点的缺点,可以有效避免上述三点问题。本发明有很强的鲁棒性,对各种特殊情况都适用。最后,本发明在脑数据分析中的表征相似性分析中有很重要的应用价值。
技术领域
本发明涉及一种用于计算多类别数据集相似性矩阵的相对相似性计算方法。
背景技术
两个变量之间的皮尔逊相关系数(Pearson correlation coefficient)定义为两个变量之间的协方差和标准差的商:
其中,E为数学期望或均值,D为方差,D开根号为标准差,E{[X-E(X)][Y-E(Y)]}称为随机变量X与Y的协方差,记为Cov(X,Y),即Cov(X,Y)=E{[X-E(X)][Y-E(Y)]},而两个变量之间的协方差和标准差的商则称为随机变量X与Y的相关系数,记为ρXY。
皮尔逊相关系数是衡量变量X与Y相关程度的一种方法,相关系数的取值范围为[-1,1]。
在几何学上,对于中心化过的数据(也就是说,数据移动一个所有样本的平均值),相关系数也可以被视作由两个随机变量向量夹角θ的余弦值。利用通常的方法计算两个向量之间的夹角θ,去中心化的相关系数是:x和y分别为去均值后的向量。
当对多类别样本集计算相似性矩阵时这种去中心化的方法选取的坐标原点是一个固定的点,这样会有三个方面的缺点:
一、特殊情况计算错误。当坐标原点落在某个类别的样本集中心附近时,会导致此类别内部样本点间的平均相似性接近于0;
二、灵敏度低。不同类别的样本集相互融合度较高时,对同一类别内部样本集计算出的相似性值会较小,以至于达不到设定的阈值而认为此类别样本点不相似;
三、物理意义不明确。坐标原点选在全部类别样本集的数据中心,没有合理的物理意义。以两类性别数据为例,显然站在男女性别的平均值(中心)去看任何一个性别的相似性是无意义的。
当然,计算相似性矩阵选取的坐标原点不一定必须在样本集中心,但是传统方法最重要的特征是只以一个选定的固定点作为坐标原点,而只要是选取一个固定点去计算相似性矩阵,都会存在上述的三点问题。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供一种用于计算多类别数据集相似性矩阵的相对相似性计算方法。
为达到上述目的,本发明采用以下技术方案予以实现:
用于计算多类别数据集相似性矩阵的相对相似性计算方法,其特征在于,包括以下步骤:
1)计算样本集s1的中心将所有样本都减去使得坐标原点位于第一个类别样本集的中心;
2)由公式计算出一个相似性矩阵,其中x和y分别为去均值后的向量;
3)依次分别以s2、s3、s4、s5、…、sn的样本集中心为坐标原点,计算出其余相似性矩阵;
4)最后将得到的相似性矩阵的平均值作为最终的相似性矩阵。
与现有技术相比,本发明具有以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810651110.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高保真谱重建方法
- 下一篇:一种基于幂均算子和DS证据理论的故障诊断方法